Исследователи компании DeepMind представили алгоритм Reinforced Self-Training (ReST) простой алгоритм для согласования LLM с предпочтениями человека, вдохновленный методом Growing Batch Reinforcement Learning (RL).

Researches from DeepMind introduced an algorithm called Reinforced Self-Training (ReST), a simple algorithm for aligning LLM with human preferences, inspired by the Growing Batch Reinforcement Learning (RL) method.

Большие языковые модели (LLM) отличаются отличным умением производить хорошо написанный контент и решать различные языковые проблемы. Эти модели обучаются с использованием больших объемов текста и вычислений для увеличения вероятности следующего авторегрессивного токена. Однако ранее проведенные исследования показывают, что создание текста с высокой вероятностью только иногда соответствует предпочтениям людей при выполнении различных задач. Языковые модели могут создавать опасный материал с негативными последствиями, если не быть правильно настроенными. Кроме того, настройка LLM улучшает производительность других последующих операций. Используя предпочтения людей, усиленное обучение с обратной связью стремится решить проблему настройки.

Обычно модель вознаграждения изучается с помощью ввода от людей, а затем используется для точной настройки LLM с использованием цели обучения с подкреплением (RL). Техники RLHF часто используют онлайн-техники RL, такие как PPO и A2C. Измененная политика должна выбираться во время онлайн-обучения, а образцы должны оцениваться неоднократно с использованием модели вознаграждения. Онлайн-подходы ограничены вычислительными затратами на обработку постоянного потока новых данных, особенно при увеличении размеров политики и сетей вознаграждения. Кроме того, предыдущие исследования исследовали регуляризацию модели для решения проблемы “взлома”, к которым эти подходы подвержены. В качестве альтернативы, алгоритмы оффлайн RL более вычислительно эффективны и менее уязвимы к взлому вознаграждения, поскольку они учатся на основе предопределенного набора образцов.

Однако характеристики оффлайн-набора данных неотделимы от качества политики, изученной в автономном режиме. Из-за этого хорошо подобранные наборы данных критически важны для успеха оффлайн RL. В противном случае улучшения производительности по сравнению с обучением с учителем могут быть незначительными. Они также предлагают метод, известный как DPO (Прямая оптимизация предпочтений), который может использовать оффлайн-данные для согласования модели языка с предпочтениями людей. Исследователи из Google представляют проблему настройки языковой модели как проблему пакетного RL, и их техника усиленного самообучения (ReST) состоит из двух циклов: внутреннего цикла (Улучшение), который улучшает политику на заданном наборе данных, и внешнего цикла (Рост), который расширяет набор данных, беря образцы из самой последней политики (см. Рисунок 1).

Рисунок 1: Подход ReST. В процессе роста политика создает набор данных. Отфильтрованный набор данных используется для точной настройки политики на этапе Улучшения. Чтобы амортизировать затраты на создание набора данных, фаза Улучшения выполняется чаще, чем два других процесса.

Этапы ReST следующие, после рассмотрения условного языкового моделирования в этой работе: 1. Рост (G): Для дополнения тренировочного набора данных для каждого сценария производятся многочисленные предсказания результатов с использованием политики языковой модели (сначала это обучающая политика). 2. Улучшение (I): Они ранжируют и фильтруют обогащенный набор данных с использованием формулы оценки. В качестве функции оценки в своих исследованиях они используют модель вознаграждения, обученную на основе предпочтений потребителей. Отфильтрованный набор данных корректирует языковую модель с использованием цели RL в автономном режиме. Повторяйте этот процесс с увеличением порога фильтрации. Затем следующий этап Роста использует окончательную политику. ReST является общим подходом, который позволяет использовать различные потери RL внутри цикла при выполнении этапов Улучшения. ReST – это широкая стратегия, которая позволяет использовать различные потери RL внутри круглого цикла при выполнении этапов Улучшения.

Для практической реализации требуется только способность 1) эффективно выбирать образцы из модели и 2) оценивать образцы модели. ReST имеет несколько преимуществ по сравнению со стандартным подходом RLHF с использованием онлайн или оффлайн RL:

• Результат фазы Роста используется на протяжении множества этапов Улучшения, что значительно снижает вычислительные затраты по сравнению с онлайн RL.

• Поскольку новые тренировочные данные выбираются из улучшенной политики во время этапа Роста, качество политики не ограничено качеством исходного набора данных (в отличие от оффлайн RL).

• Инспектирование качества данных и возможная диагностика проблем с выравниванием, таких как хакинг вознаграждения, просты благодаря разделению на шаги Роста и Улучшения.

• Есть немного гиперпараметров для настройки, и техника проста и надежна.

Машинный перевод – это проблема обучения последовательности на последовательность, которая обычно выражается как условное языковое моделирование, где фраза на иностранном языке служит контекстом условия (исходный текст). Они выбирают машинный перевод, потому что (a) это полезное приложение с надежными базовыми показателями и четким процессом оценки, и (b) существует несколько надежных текущих методов оценки и оценки, которые могут использоваться в качестве модели вознаграждения. Они сравнивают несколько алгоритмов оффлайн RL в своих исследованиях на наборах данных IWSLT 2014 и WMT 2020, а также на более сложных, высокодетализированных внутренних наборах данных в Веб-домене. ReST значительно улучшает результаты модели вознаграждения на тестовых и проверочных наборах данных в своих исследованиях. ReST показывает более качественные переводы, чем основные модели обучения с учителем, согласно оценкам людей.