Эта научная статья AI раскрывает секреты оптимизации больших языковых моделей балансировка вознаграждений и предотвращение чрезмерной оптимизации.

Раскрытие секретов оптимизации больших языковых моделей балансировка вознаграждений и предотвращение чрезмерной оптимизации в этой научной статье AI

Команда исследователей из Университета Калифорнии в Беркли, Лондонского Университета Вестминстера, Карнеги-Меллонского Университета и Google Deepmind решает проблему оптимизации больших языковых моделей с использованием составных моделей вознаграждения, основанных на различных, более простых моделях вознаграждений. Эти гибридные модели часто нуждаются в помощи в подборе весов компонентных моделей, что может приводить к ситуации, когда более высокое вознаграждение коррелирует с более низкой оценкой человека. В их методе предлагается решение путем использования ограниченного обучения с подкреплением, чтобы предотвратить превышение полезностного порога каждой компонентной модели.

Исследование отсылает к обширной истории исследований по интеграции ограничений в обучение с подкреплением, упоминая работы авторов, таких как Боркар, Падакандла, Чанг, Лекарпантье и других. В исследовании также подчеркивается важность решения проблемы нестационарности в функциях вознаграждения и приводятся работы Московица, О’Доногью и Тарбуриш. Кроме того, в исследовании обсуждается использование регуляризованной оптимизации политики.

Большие языковые модели отличаются в обработке естественного языка, но имеют проблемы с безопасным развертыванием и согласованием с предпочтениями человека. Обучение с подкреплением по обратной связи от человека (RLHF) адаптирует большие языковые модели, используя модели вознаграждений, имитирующие выборы человека. Однако, чрезмерная оптимизация моделей вознаграждения может приводить к низкому качеству текста. В их работе предлагается решение с использованием составных моделей вознаграждения, решающих проблему чрезмерной оптимизации путем идентификации прокси-точек и использования ограниченной оптимизации. Динамическое взвешивание контролирует влияние каждой компонентной модели на процесс обучения.

В анализе предлагается метод ограниченного обучения с подкреплением с использованием метода множителей Лагранжа для управления чрезмерной оптимизацией в составных моделях вознаграждения. Он накладывает ограничения на компонентные модели вознаграждения, удерживая их в пределах диапазона эффективной оценки человека. Представлен метод адаптивной оптимизации без градиента для идентификации и оптимизации прокси-точек, чтобы предотвратить чрезмерное использование моделей вознаграждения. Рассматриваются различные формулировки вознаграждения задачи и порогов ограничений, включая дивергенцию Кульбака—Лейблера.

В их подходе проводится первое исследование чрезмерной оптимизации в составных моделях вознаграждения, раскрывающее значительное влияние корреляции на точки чрезмерной оптимизации. Используется метод адаптивной оптимизации без градиента, чтобы предотвратить превышение порогов моделей вознаграждения. Обсуждаются алгоритмы PPO, включая PPO-SAT и All-PPO, для реализации ограниченного обучения с подкреплением. Предоставляется подробный псевдокод, включающий различные формулировки вознаграждения задачи и порога ограничений.

Исследование сосредоточено на решении задач оптимизации в составных моделях вознаграждения, которые влияют на оценку качества языка. Метод адаптивной оптимизации без градиента используется для идентификации и оптимизации точек чрезмерной оптимизации. В исследовании рассматривается использование алгоритмов PPO, таких как PPO-SAT и All-PPO. Большое значение придается правильному взвешиванию и учету корреляции между компонентными моделями вознаграждения для эффективной оценки качества языка.

В дальнейшем исследовании следует рассмотреть применение надежных подходов, таких как ReLOAD, для решения проблемы чрезмерной оптимизации в составных моделях вознаграждения. Исследование полезности формулировок CMDP для предотвращения проблем с моделью вывода в случаях без детерминированных оптимальных политик является важным. Необходимо провести обширное тестирование в различных областях и сложных составных моделях вознаграждения. Исследование альтернативных методов обучения с подкреплением и оценка влияния стратегий взвешивания и мер корреляции на производительность предложенного подхода являются важными для дальнейшего развития.