Зефир прямая дистилляция выравнивания LLM

Прямая дистилляция выравнивания LLM Зефирный подход

Возможности и производительность маленьких, открытых больших языковых моделей значительно продвинулись в последние годы, и мы стали свидетелями прогресса от ранних моделей GPT-2 до более компактных, точных и эффективных рамок LLM, которые используют значительно большее количество токенов, чем «вычислительно оптимальное» количество токенов, рекомендуемое законами масштабирования Chinchilla. Кроме того, разработчики показали, что эти меньшие рамки LLM могут быть дополнительно обучены с использованием метода дистиллированного надзорного дообучения (dSFT или Distilled Supervised Fine-Tuning), который использует вывод эффективной модели-учителя в качестве контролируемых данных для модели-ученика для повышения точности.

В этой статье мы поговорим о платформе Zephyr-7B, передовом наборе инструментов для 7-миллиардных моделей с параметрами в чате, не требующем аннотаций человека. Основная цель этой рамки – позволить разработчикам создавать более компактные большие языковые модели, которые гораздо точнее соответствуют намерениям пользователя, чем когда-либо ранее. Платформа Zephyr-7B не только исследует применение существующих методов для больших рамок LLM, таких как dSFT, но и исследует возможность использования других подходов для создания модели чата с более точным соответствием намерениям пользователя. Мы также подробно рассмотрим архитектуру, принцип работы и результаты платформы Zephyr. Итак, приступим.

Zephyr-7B: Введение в прямую дистилляцию согласования в языковых моделях

Как уже упоминалось ранее, языковые модели стремительно развиваются в последние годы, от ранних рамок GPT-2 до текущих GPT-4 и LLM-рамок MiniGPT-5, которые, хотя и продолжают использовать большое количество токенов, стали более точными и эффективными. Одним из главных достоинств этих передовых рамок LLM является использование гораздо большего количества токенов, чем ранее рассматривалось как вычислительно оптимальное количество согласно законам масштабирования Chinchilla. Кроме того, разработчики и исследователи, работающие с рамками LLM, узнали, что эти меньшие рамки LLM могут быть дополнительно обучены с использованием метода дистиллированного надзорного дообучения (dSFT) или Distilled Supervised Fine-Tuning, который использует вывод эффективной модели-учителя в качестве контролируемых данных для модели-ученика для повышения точности. Дистилляционная стратегия оказалась высокоэффективным и полезным инструментом для максимизации потенциала и возможностей открытых моделей при выполнении широкого спектра задач, хотя она еще не может повторить результаты, достигаемые моделью-учителем. Кроме того, пользователи часто сообщают, что такие модели часто проявляют «неоправданную адаптацию», то есть они не ведут себя согласно требованиям конечных пользователей, что приводит к неправильным выводам, не предоставляющим правильных результатов или ответов на запросы пользователей.

Выравнивание намерений всегда было большой проблемой для разработчиков, и недавние исследования сосредоточены на создании бенчмарков, таких как AlpacaEval и MT-Bench, разработанных для устранения несоответствий. Мотивацию для создания платформы Zephyr можно приписать проблеме выравнивания маленькой открытой рамки LLM, где первым шагом является использование искусственного интеллекта обратной связи (AIF или Artificial Intelligence Feedback) для получения данных предпочтений из ансамбля модели-учителя, а затем применение прямой дистилированной оптимизации предпочтений напрямую в качестве основного целевого обучения, подхода, который называется дистиллированной политической оптимизацией с шумоподавлением (dDPO или Denoising Diffusion Policy Optimization). Главной особенностью подхода dDPO является то, что, в отличие от его предшественников, таких как проксимальная оптимизация предпочтений (PPO или Proximal Preference Optimization), он не требует выборки или аннотаций, оптимизирует время обучения языковой модели и позволяет разработчикам максимизировать вознаграждение окончательного образца, уделяя особое внимание последовательности шагов по подавлению шумов от начала до конца.

Разработчики создали платформу Zephyr-7B для проверки этого подхода, и в некотором смысле она является более выровненной версией передовой платформы Mistral-7B. В рамках этой платформы сначала используется метод дистиллированного надзорного дообучения (dSFT) на основе набора данных UltraChat, а затем применяется подход прямой дистиллированной оптимизации предпочтений с шумоподавлением (dDPO или Denoising Diffusion Policy Optimization) на основе данных обратной связи. Эксперименты показывают, что платформа Zephyr-7B c 7 миллиардами параметров доставляет результаты, сопоставимые с результатами моделей чата, выровненных по обратной связи от людей с более чем 70 миллиардами параметров. Кроме того, эксперименты также показывают, что результаты можно улучшить как с точки зрения бенчмарков, учитывающих разговорные возможности, так и с точки зрения стандартных академических бенчмарков, причем использование обучения на основе предпочтений играет решающую роль в достижении желаемых результатов.

На рисунке выше показана производительность различных языковых моделей на базовой платформе MT-bench. Фреймворк Zephyr-7B, обученный с использованием подхода dDPO, ставится в сравнение с закрытой и открытой большими языковыми моделями, такими как GPT-3.5 turbo, Llama-2-70B и другими, которые были обучены с использованием дополнительного обучения с подкреплением, а также включали большое количество обратной связи от людей. Как можно ясно видеть, несмотря на значительную разницу в количестве параметров, используемых этими фреймворками, фреймворк Zephyr-7B достигает сопоставимых результатов с большинством из них и превосходит несколько фреймворков в различных областях.

Zephyr-7B: Метод, работа и архитектура

Основная цель фреймворка Zephyr-7B состоит в том, чтобы помочь открытой модели большого языка быть максимально близкой к намерению пользователя, и на протяжении всего процесса фреймворка Zephyr-7B предполагается доступ к большой модели учителя, на которую задаются запросы с помощью генерации подсказок. Фреймворк Zephyr-7B следует подходу, аналогичному используемому в фреймворке InstructGPT, и стремится создать эффективную и точную студенческую модель.

На следующем рисунке кратко показаны три основных шага, включенных в работу фреймворка Zephyr-7B.

  1. Построение масштабного набора данных с помощью самообучения в стиле дистилляции.
  2. Сбор AIF (Artificial Intelligence Feedback) с использованием ансамбля моделей чата, за которыми следует бинаризация предпочтений и оценка моделью GPT-4.
  3. Дистилляция дSFT-модели (Distilled Supervised Fine-Tuning) с использованием обратной связи от данных.

dSFT или Дистиллированное Сверхвизированное Тонирование

Фреймворк начинается с исходной модели большого языка, которую необходимо обучить отвечать на запросы пользователей. Традиционно обучение этих моделей LLM для ответа на запросы пользователей выполняется с использованием SFT (Supervised Fine Tuning) на наборе данных, состоящем из высококачественных инструкций и соответствующих им ответов. Поскольку фреймворк Zephyr-7B имеет доступ к учительской модели языка, фреймворк может генерировать инструкции и ответы, и обучать модель напрямую на этих инструкциях и ответах, и этот подход называется dSFT или дистиллированный SFT. На следующем рисунке показана дистилляция, выполняемая SFT, где x представляет собой набор начальных подсказок, предназначенных для представления разнообразных тематических областей, y представляет собой пример ответа, который уточняется с помощью новой примера инструкции, представленной x1, и С представляет собой конечную точку в конечном наборе данных.

Обратная связь ИИ через Предпочтения

Человеческая обратная связь используется для оценки больших языковых моделей, так как они могут предоставить необходимые дополнительные сигналы, и эта обратная связь обычно предоставляется через предпочтения качества ответов, генерируемых моделями LLM. Однако фреймворк Zephyr использует обратную связь ИИ от учительской модели по отношению к результатам, полученным другими моделями, вместо обратной связи от людей для дистилляции данных. Подход, применяемый фреймворком Zephyr, вдохновлен подходом, используемым фреймворком UltraFeedback, который использует учительскую модель для предоставления предпочтений по результатам модели.

Аналогично подходу SFT (Supervised Fine Tuning), он начинается с набора подсказок, где x представляет каждую отдельную подсказку, которая затем передается набору из четырех моделей, таких как Llama, Falcon, Claude и другие, каждая из которых генерирует свой собственный ответ. Эти ответы затем передаются в качестве входных данных учительской модели, такой как GPT-3 или GPT-4, после чего модель выводит оценку для входного ответа. После сбора выходных оценок модель сохраняет ответ с наивысшей оценкой.

dDPO или Дистиллированная Прямая Оптимизация Предпочтений

dDPO – это последний шаг в структуре Zephyr Framework, и его основная задача заключается в уточнении учителя dSFT путем максимизации вероятности ранжирования предпочитаемого ответа в модели предпочтения, определяемой функцией вознаграждения с использованием модели языка студента. Предыдущий шаг, связанный с использованием обратной связи ИИ, фокусировался в основном на использовании методов обучения с подкреплением, таких как PPO или Проксимальная политика оптимизации для максимальной оптимизации с учетом сгенерированного вознаграждения. В этом шаге сначала обучается вознаграждение, а затем из текущей политики выбираются образцы для вычисления обновлений и, таким образом, максимизации оптимизации. DPO или Прямая оптимизация предпочтений следует аналогичному подходу для оптимизации модели предпочтения, используя статические данные. Цель после подключения функции вознаграждения к модели предпочтения можно записать так:

Zephyr-7B: Эксперименты, показатели эффективности и результаты

Фреймворк Zephyr проводит свои эксперименты по настройке на текущей современной модели фреймворка Mistral-7B, которая обеспечивает сравнимую производительность с гораздо более крупными моделями языка в широком спектре задач обработки естественного языка или NLP.

Наборы данных

Фреймворк Zephyr использует два набора данных диалога, которые были извлечены из смеси собственных и открытых моделей, которые ранее доказали свою эффективность в создании эффективных моделей чатов.

UltraChat

UltraChat – это набор данных для самоусовершенствования, который состоит из почти 1,5 миллиона диалогов, охватывающих 30 тем и 20 текстовых материалов, созданных фреймворком GPT-3.5-Turbo. Для борьбы с проблемой неправильного использования заглавных букв в наборе данных UltraChat, фреймворк применяет эвристический подход к разделению и удалению грамматических ошибок.

UltraFeedback

UltraFeedback – это набор данных заданий, включающий более 64 тысяч заданий, каждое из которых имеет четыре отдельных ответа от LLM. Фреймворк Zephyr использует самое высокое среднее значение, полученное из набора данных UltraFeedback, чтобы построить двоичные предпочтения, и один из трех оставшихся ответов LLM отбрасывается как случайный.

Оценка

Для оценки производительности фреймворка Zephyr разработчики выбрали две оценочные платформы для чата: одна для одиночных обращений и одна для многократных обращений, чтобы оценить возможность модели следовать инструкциям пользователя и отвечать соответствующим образом.

MT-Bench

Экзаменационный инструмент MT-Bench состоит из 160 вопросов, разбитых по 8 уникальным областям знаний. В рамках экзамена MT-Bench модель должна дать ответ на начальный вопрос и предоставить ответ на последующий вопрос.

AlpacaEval

AlpacaEval – это оценочная платформа для одиночных обращений, в рамках которой модель или фреймворк генерирует ответы пользователя на более чем 800 вопросов, относящихся к различным темам с основным уклоном на полезность.

Помимо этих двух основных оценочных платформ, фреймворк Zephyr-7B также оценивается по мультиклассовым задачам классификации на Open LLM Leaderboard, ARC, HellaSwag, MMLU и других задачах. Более того, независимо от оценки фреймворка Zephyr-7B, его результаты сравниваются с широким спектром собственных и открытых моделей, единственное отличие которых заключается в процедурах выравнивания.

Результаты

Давайте теперь посмотрим, какой результат показывает фреймворк Zephyr-7B и как он сравнивается с современными моделями языка.

Применение подхода dDPO повышает возможности чата

В следующей таблице приведено сравнение производительности фреймворка Zephyr-7B с современными моделями языка на оценке AlpacaEval и MT-Bench.

Как можно ясно видеть, в сравнении с открытыми моделями 7B, фреймворк Zephyr-7B не только значительно превосходит модели dSFT на двух бенчмарках, но также устанавливает новые стандарты рекордной производительности. Кроме того, фреймворк Zephyr-7B также способен превзойти фреймворк XWIN-LM-7B, который является одной из редких моделей, обученных с использованием подхода dPPO или дистилляции PPO. Более того, производительность фреймворка Zephyr-7B сравнима с результатами, достигаемыми гораздо более крупными языковыми моделями, такими как Llama2-Chat с более чем 70 миллиардами параметров.

dDPO повышает производительность академических задач

Следующая иллюстрация сравнивает производительность фреймворка Zephyr-7B с широким спектром открытых и частных фреймворков LLM.

Как видно, фреймворк Zephyr-7B значительно превосходит фреймворки LLM с 7 миллиардами параметров, и разрыв между его производительностью и производительностью лучших моделей dSFT также заметен. По мере увеличения количества параметров, фреймворк Zephyr-7B несколько уступает, хотя сопоставим с производительностью фреймворков с 40 миллиардами параметров.

Оптимизация предпочтений

На следующей иллюстрации мы оцениваем, как различные шаги, выполняемые в процессе выравнивания, влияют на производительность. Как можно видеть, подход dDPO в сочетании с dSFT значительно повышает производительность как на наборе данных MT-Bench, так и на наборе данных AlpacaEval.

Наконец, на следующей иллюстрации мы видим точность тестирования и обучения во время реализации DPO. Как видно, подход DPO не влияет на производительность модели на зависимых задачах.

Заключение

В данной статье мы говорили о фреймворке Zephyr-7B, основанном на текущем передовом фреймворке Mistral-7B, который стремится решить текущую проблему сжатия выравнивания с большой языковой модели на гораздо более компактный предварительно обученный фреймворк. Основная цель этого фреймворка – позволить разработчикам создавать меньшие языковые модели, которые более точно соответствуют намерениям пользователя. Фреймворк Zephyr-7B не только исследует применение текущих подходов для более крупных фреймворков LLM, таких как dSFT, но и исследует возможность использования других подходов для обучения чат-модели с лучшим выравниванием с намерениями и взаимодействием пользователя.

Однако, несмотря на многообещающие результаты, фреймворк Zephyr-7B не является идеальным, и некоторая работа еще предстоит проделать. Один из очевидных ограничений – использование фреймворка GPT-4 для оценки наборов данных MT-Bench и AlpacaEval, который часто имел предвзятость в отношении моделей, которые сам дистиллировал. Однако фреймворк Zephyr-7B надеется открыть путь для исследования возможностей более компактных открытых моделей, способных выравниваться с намерениями и взаимодействием пользователя.