Исследователи из Microsoft представляют Hydra-RLHF памяти-эффективное решение для обучения с подкреплением с помощью обратной связи от человека.

Исследователи из Microsoft представляют Hydra-RLHF - памяти-эффективное решение для обучения с подкреплением.

С момента своего появления модели семейства ChatGPT, GPT-4 и Llama-2 завоевали пользователей своей универсальностью как полезные помощники для различных задач. Одним из факторов их эффективности является выравнивание модели с использованием RLHF и множества других фундаментальных моделей. Обучение огромной языковой модели создает сеть с большим количеством знаний. Однако, поскольку сеть не обучается различать эту информацию, она может проявлять нежелательное поведение и даже вызывать социальный вред. Изменение поведения модели, выравнивание, направлено на решение этой проблемы и стало важным при разработке безопасных и управляемых фундаментальных моделей.

Хотя RLHF улучшает выравнивание модели, его применение ограничено из-за высокой сложности и больших требований к памяти при загрузке и обучении множества моделей во время PPO. Необходимо критически оценить различия в скорости и производительности RLHF, поскольку его применение все еще находится в начальной стадии. Они исследуют процедуру обучения и архитектуры моделей общего RLHFPPO, чтобы достичь этой цели. Их исследование выявило значительные возможности сокращения затрат на память и вычисления путем совместного использования моделей между Reference/Reward Models и Actor/Critic Models.

Исследователи из Microsoft предлагают Hydra-PPO для минимизации количества изученных и статических моделей, хранящихся в памяти во время PPO на основе этих результатов. Эти экономии памяти могут быть использованы для увеличения размера пакета обучения, что позволяет снизить задержку на образец в PPO до 65% по сравнению с временем выполнения и производительностью. Они представляют набор улучшений RLHF под названием Hydra-RLHF. Они создают модель на основе декодера, называемую гидрой, с двумя линейными головами:

1) Голова причинно-следственной связи, которая предсказывает токен, который следует за ним в последовательности.

2) Голова модели вознаграждения, которая предоставляет мгновенное вознаграждение, связанное с тем же входом.

Многоголовые модели широко изучались, в целом, и в контексте обучения с подкреплением.

Они провели сравнительное исследование, которое оценивает эффективность нескольких процедур выравнивания моделей по мере GPT-4. Они обнаружили, что LoRA-PPO имеет лучшее выравнивание, чем FFT, но более дорогостоящая. Они представляют Hydra-RLHF, который объединяет модели reference и reward и динамически переключает текущий модуль LoRA во время PPO, как способ снижения использования памяти при сохранении скорости. Hydra-RLHF может обучаться с до 65% более быстрой задержкой на образец с дополнительной памятью за счет использования большего размера пакета. Благодаря Hydra-RLHF сообщество теперь может использовать RLHF для большего количества моделей и приложений.