Исследователи Стэнфордского университета и университета Техаса в Остине предлагают метод контрастного обучения предпочтения (CPL) простой метод Reinforcement Learning RL-Free для RLHF, который работает с произвольными MDP и данными off-Policy.

Простой метод обучения предпочтения с использованием контрастного обучения (CPL) от исследователей Стэнфордского университета и университета Техаса в Остине для RLHF работа с произвольными MDP и данными off-Policy.

Вызов сопоставления предпочтений людей с большим предварительно обученным моделям стал актуальным в исследованиях, поскольку эти модели становятся все более производительными. Это соответствие становится особенно сложным, когда в больших наборах данных неизбежно содержатся плохие поведения. Для решения этой проблемы стал популярным подход, основанный на обучении с подкреплением от людей, или RLHF. Приемы RLHF используют предпочтения людей для различения между приемлемым и плохим поведением с целью улучшить известную политику. Этот подход показал обнадеживающие результаты при использовании для настройки правил роботов, улучшения моделей генерации изображений и доводки крупных языковых моделей с использованием менее качественных данных. В большинстве алгоритмов RLHF для этой процедуры существует два этапа.

Во-первых, собираются данные о предпочтениях пользователей, чтобы обучить модель вознаграждения. Затем алгоритм обучения с подкреплением (RL) извлекает оптимальную модель вознаграждения. К сожалению, этой двухфазной парадигме требуется исправление. Предпочтения людей должны быть признаны дисконтированной суммой наград или частичным возмещением за каждый сегмент поведения, чтобы алгоритмы могли создавать модели вознаграждения на основе предпочтений. Однако недавние исследования вызывают сомнения в этой теории, предлагая, что предпочтения людей должны быть основаны на сожалениях за каждое действие при идеальной стратегии функции вознаграждения эксперта. Оценка людьми, вероятно, сконцентрирована на оптимальность, а не на том, предоставляют ли ситуации и поведение большую награду.

Следовательно, оптимальная функция преимущества или разлагаемый сожалениями может быть лучшим числом для получения обратной связи вместо вознаграждения. Двухфазовые алгоритмы RLHF используют RL второй фазы для оптимизации функции вознаграждения, известной на первом этапе. В реальных приложениях временное присуждение заслуг вызывает ряд трудностей оптимизации для алгоритмов RL, включая нестабильность приближенного динамического программирования и высокую дисперсию градиентов политики. В результате ранние работы ограничивают свои возможности, чтобы избежать этих проблем. Например, алгоритмы RLHF для LLMs предполагают контекстуальную бандитскую формулировку, где политике присваивается единственное значение вознаграждения в ответ на вопрос пользователя.

Подозрения, вызванные одношаговым предположением бандита, отклоняются, поскольку взаимодействие пользователя с LLM является многошаговым и последовательным, даже при этом сокращается потребность в присвоении долгих перспектив одного шага и, следовательно, высокой дисперсии градиентов политики. Другим примером является применение RLHF к задачам робототехники на основе состояния низкой размерности, которое работает для приближенного динамического программирования. Однако он пока не масштабируется до доменов непрерывного управления с более высокой размерностью и входными данными с изображениями, которые более реалистичны. В общем, методы RLHF требуют уменьшения ограничений оптимизации RL путем делания ограниченных предположений о последовательной природе проблем или размерности. Они обычно ошибочно полагают, что только функция вознаграждения определяет предпочтения людей.

В отличие от широко используемой модели частичного возмещения, которая учитывает общие вознаграждения, исследователи из Стэнфордского университета, Университета Массачусетса в Амхерсте и Университета Техаса в Остине предлагают новое семейство алгоритмов RLHF в данном исследовании, которое использует модель предпочтений на основе сожалений. В отличие от модели частичного возмещения, подход на основе сожалений предоставляет точную информацию о наилучшем действии. К счастью, это позволяет обойтись без RL и решать проблемы RLHF с помощью пространства состояний и действий высокой размерности в общем фреймворке MDP. Их основное открытие заключается в создании взаимно однозначного соответствия между функциями преимущества и стратегиями, объединяя предпочтительную рамку на основе сожалений с принципом максимальной энтропии (MaxEnt).

Они могут установить чисто примерное обучение, для которого оптимум является наилучшей стратегией с учетом вознаграждения эксперта путем оптимизации преимуществ перед оптимизацией стратегий. Поскольку их метод напоминает широко признанные цели контрастного обучения, они называют его Контрастным Обучением Предпочтений – основные преимущества CPL по сравнению с предыдущими попытками. Во-первых, потому что CPL соответствует оптимальному преимуществу исключительно с использованием примерного обучения, а не использованием динамического программирования или градиентов политики, его можно масштабировать так же хорошо, как и примерное обучение. Во-вторых, CPL является полностью off-policy, что позволяет использовать любые отключенные источники данных с менее качественными данными. Наконец, CPL позволяет искать предпочтения в последовательных данных для обучения на произвольных процессах принятия решений Маркова (MDP).

Насколько им известно, предыдущие техники для RLHF еще не удовлетворяют всем требованиям одновременно. Они демонстрируют работу CPL на задачах последовательного принятия решений с использованием субоптимальных и высокоразмерных off-policy входных данных, чтобы доказать, что она соответствует вышеупомянутым трем принципам. Интересно, что они демонстрируют, что CPL может изучать правила длительного манипулирования в бенчмарке MetaWorld, эффективно использовав тот же процесс крупномасштабной настройки RLHF, что и модели диалога. Более точно, они используют примерное обучение на основе наблюдений с высокой размерностью изображений для предварительного обучения стратегий, которые затем донастраиваются с использованием предпочтений. CPL может достигать производительности ранее используемых методов на основе RL без необходимости в динамическом программировании или градиентах политики. При этом он четыре раза более параметрически эффективен и в 1,6 раза быстрее одновременно. На пяти из шести задач CPL превосходит RL-базовые линии при использовании более плотных данных предпочтений. Исследователи могут избежать необходимости в обучении с подкреплением (RL), используя концепцию максимальной энтропии для создания контрастного обучения предпочтений (CPL), алгоритма для изучения оптимальных стратегий на основе предпочтений без изучения функций вознаграждения.