Усовершенствуйте лучшие модели чата с помощью оптимизации предпочтений основной личности (IPO)

Оптимизация предпочтений основной личности (IPO) Улучшение лучших моделей чата

Mistral 7B совместим с IPO

Фото от Rishabh Dharmani на Unsplash

Чтобы стать моделями чата, предобученные модели больших языков (LLM) настраиваются на больших наборах данных из инструкций/вопросов, сопоставленных с ожидаемыми ответами. В то время как этот простой настройка позволяет получить убедительные модели чата, их ответы могут быть все же непоследовательными, предвзятыми, недостойными этически и небезопасными с точки зрения человека. Поэтому мы обычно проводим дополнительный этап обучения для лучшего согласования LLM с людьми.

Это согласование можно выполнять с помощью обучения с подкреплением с обратной связью человека (RLHF). Как показано OpenAI и успешность ChatGPT, RLHF может давать современные модели чата. Однако RLHF дорого в запуске. Это требует больших наборов данных, размеченных людьми и обучения нескольких вспомогательных моделей (ссылочной и модели вознаграждения).

Как более простая и дешевая альтернатива RLHF, прямая оптимизация предпочтений (DPO) недавно успешно применялась для согласования LLM, таких как Zephyr от Hugging Face и Neural Chat от Intel.

В этой статье, основанной на работе Google DeepMind, мы увидим, что RLHF и DPO, хотя и хорошо согласовывают LLM, далеки от оптимального с учетом наборов данных, используемых для обучения. DeepMind также демонстрирует, почему DPO склонно к переобучению. Я объясню на простом английском языке, почему альтернатива, предложенная DeepMind, цель оптимизации политики идентичности (IPO), является более простой и лучше адаптирована для изучения данных обучения, чем RLHF и DPO.

В следующих разделах я покажу, как использовать IPO, следуя рецепту обучения, близкому к используемому Hugging Face для обучения моделей Zephyr.

Я также реализовал блокнот, демонстрирующий обучение IPO для модели Mistral 7B. Вы можете найти его здесь:

Получите блокнот (#31)

Статья DeepMind, описывающая IPO, находится на arXiv:

Общая теоретическая парадигма для понимания обучения по предпочтениям человека

ψPO: Обобщение оптимизации предпочтений

RLHF и DPO обучаются на похожих наборах данных: подсказках, сопоставленных с не менее чем двумя возможными ответами, оцененных людьми (или LLM). Ответы объединяются таким образом, чтобы…