Зефир 7Б Бета Вам нужен только хороший учитель

Зачем вам нужен лишь хороший учитель, если есть Зефир 7Б Бета?

Дистилляция знаний для Mistral 7B

Изображение с Pixabay

Mistral 7B – одна из лучших предобученных моделей большого языка (LLM). Релиз Zephyr 7B Alpha с подкреплением от Hugging Face продемонстрировал, что Mistral 7B, обученная с помощью DPO, может превосходить модели чат-ботов, в 10 раз больше, и даже сравниваться по результативности с GPT-4 в некоторых задачах.

С объявлением “Альфа” в названии модели, Hugging Face, очевидно, планировали выпустить более лучшие версии Zephyr 7B. И они действительно выпустили Zephyr 7B Beta всего через 2 недели. Существует технический отчет на arXiv, описывающий модель и ее оценку:

Zephyr: Прямая Дистилляция Привязок модели языка (Тансталл и др., 2023)

В этой статье мы увидим, что делает Zephyr 7B Beta лучше, чем более крупные LLM. Более конкретно, мы увидим, как Hugging Face использовали более крупные LLM, такие как GPT-4, чтобы обучить Mistral 7B отвечать на инструкции и согласовывать ответы с предпочтениями человека.

Дистилляция: Когда меньшие LLM учатся от более крупных

Поскольку Hugging Face полагались на дистилляцию знаний (KD) для обучения Zephyr, давайте в кратце вспомним, что такое KD в контексте LLM.

Большинство LLM обучаются на текстах, написанных людьми. Человеческие тексты представляют высокое разнообразие последовательностей токенов и словаря, который сложно моделировать. Из-за этой сложности нам нужно много данных, чтобы обучить LLM должным образом моделировать язык.

Есть путь сократить стоимость и сложность обучения: дистилляция знаний (KD). Есть множество способов провести KD. В этом разделе я расскажу только о методе, использованном Hugging Face.

После обучения на человеческих текстах, несмотря на то, что LLM могут быть очень хороши в генерации языка, они лишь приближают истинное вероятностное распределение языка. LLM генерирует по умолчанию гораздо меньше разнообразных последовательностей токенов, чем люди. Примечание: Вот почему часто при выводе случайные выборки также используются, например, с помощью отбора ядра, для повышения разнообразия в сгенерированном тексте.

Поскольку последовательности токенов, сгенерированные LLM, менее разнообразны, чем текст, написанный человеком, обучение моделированию этих сгенерированных последовательностей является гораздо более простой задачей.