Внутри Zephyr-7B гипероптимизированный LLM от HuggingFace, который продолжает превосходить более крупные модели

Новый уровень оптимизации гипероптимизированный LLM от HuggingFace внутри Zephyr-7B, превосходящий более крупные модели

Модель представляет собой улучшенную версию Mistral-7b.

Создано с использованием DALL-E 3

Недавно я начал выпускать образовательную рассылку, посвященную искусственному интеллекту, которая уже имеет более 160 000 подписчиков. TheSequence – это рассылка, ориентированная на машинное обучение, не занимающая ваше время, так как ее можно прочитать за 5 минут. Целью является быть в курсе последних проектов по машинному обучению, научных статей и концепций. Попробуйте подписаться ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник, чтобы быть в курсе новостей в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

ZEPHYR-7B является одной из новейших моделей большого языка (LLMs), которые были невероятно хорошо приняты сообществом искусственного интеллекта. Созданная компанией Hugging Face, модель представляет собой улучшенную версию Mistral-7B, обученную на общедоступных наборах данных и оптимизированную с использованием техник дистилляции знаний. Модель показала невероятные результаты, превосходящие гораздо большие модели в различных задачах.

Недавние исследования показали, что дистилляция является ценной техникой для улучшения моделей искусственного интеллекта в различных задачах. Однако эти модели не достигают такого же уровня производительности, как и исходные модели-учителя. Пользователи отмечают, что эти модели часто не имеют “выравнивания намерений”, то есть не всегда ведут себя так, как это соответствует предпочтениям людей. В результате они часто создают ответы, которые не точно отвечают на запросы пользователей.

Количественная оценка согласованности намерений вызывает некоторые сложности, но недавние усилия привели к созданию таких показателей, как MT-Bench и AlpacaEval, специально разработанных для оценки этого аспекта. Эти показатели тесно коррелируют с оценками людей и подтверждают качественное представление о том, что собственные модели превосходят открытые модели, обученные с помощью обратной связи от людей, которые, в свою очередь, показывают лучшую производительность, чем открытые модели, обученные с использованием дистилляции. Это подчеркивает важность сбора тщательной обратной связи от людей для обеспечения соответствия, как это видно в проектах, таких как LLAMA2-CHAT.

Основной целью создания модели ZEPHYR-7B, выровненной версии Mistral-7B, была проверка этого подхода. Процесс включает в себя три ключевых шага:

1. Создание набора данных большого масштаба в стиле самообучения с использованием набора данных UltraChat, за которым следует обучение с учителем с использованием дистилляции (dSFT).

2. Сбор обратной связи от искусственного интеллекта (AIF) с помощью комбинации завершенных моделей чата и последующего оценивания GPT-4 (UltraFeedback), которая затем преобразуется в данные предпочтений.

3. Применение дистиллированной прямой оптимизации предпочтений (dDPO) к модели dSFT с использованием собранных данных обратной связи.

Процесс тонкой настройки, лежащий в основе модели ZEPHYR-7B, основан на трех основных техниках:

1. Дистиллированное обучение с учителем (dSFT): начинается с модели языка, требующей обучения для генерации ответов на запросы пользователей. В этом традиционном шаге обычно используется обучение с учителем (SFT) на наборе данных, содержащем инструкции и ответы высокого качества. Однако, если доступна модель-учитель, модель может непосредственно генерировать инструкции и ответы, и это процесс называется дистиллированным SFT (dSFT).

2. Обратная связь искусственного интеллекта через предпочтения (AIF): использует обратную связь от людей для улучшения языковых моделей. Традиционно обратная связь собирается через предпочтения, которые оценивают качество ответов модели. В контексте дистилляции предпочтения искусственного интеллекта от модели-учителя используются для оценки результатов, созданных другими моделями.

3. Дистиллированная прямая оптимизация предпочтений (dDPO): направлена на улучшение модели dSFT путем максимизации вероятности ранжирования предпочтительных ответов перед менее предпочтительными. Это достигается через модель предпочтений, определенную функцией вознаграждения, которая использует модель языка студента. Предыдущие подходы, использующие обратную связь искусственного интеллекта, обычно применяют методы обучения с подкреплением, такие как PPO (проксимальная оптимизация политики), для оптимизации параметров модели относительно этой функции вознаграждения. Эти методы обычно включают обучение функции вознаграждения сначала, а затем генерацию обновлений путем выборки из текущей политики.

Использование ZEPHYR-7B

ZEPHYR-7B доступен через библиотеку HuggingFace’s transformers с использованием очень простого интерфейса. Для выполнения ZEPHYR-7B достаточно вызвать функцию pipeline() библиотеки.

# Установка transformers из исходного кода – требуется только для версий <= v4.34# pip install git+https://github.com/huggingface/transformers.git# pip install accelerateimport torchfrom transformers import pipelinepipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-alpha", torch_dtype=torch.bfloat16, device_map="auto")# Мы используем шаблон чата токенизатора для форматирования каждого сообщения – см. https://huggingface.co/docs/transformers/main/en/chat_templatingmessages = [    {        "role": "system",        "content": "Ты дружелюбный чат-бот, который всегда отвечает в стиле пирата",    },    {"role": "user", "content": "Сколько вертолетов человек может съесть за один прием пищи?"},]prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)print(outputs[0]["generated_text"])# <|system|># Ты дружелюбный чат-бот, который всегда отвечает в стиле пирата.</s># <|user|># Сколько вертолетов человек может съесть за один прием пищи?</s># <|assistant|># Ах ты, мой храбрый товарищ! Но вот вопрос твой засадил меня в ловушку! Человек не может съесть вертолет за один прием пищи, потому что вертолеты несъедобные. Они сделаны из металла, пластика и других материалов, а не из еды!

Результаты

Основные оценки Hugging Face для ZEPHYR-7B сосредоточены на одноходовых и многоходовых бенчмарках чата, которые оценивают способность модели выполнять инструкции и давать ответы на сложные запросы в разных областях:

1. MT-Bench: Этот многоходовый бенчмарк включает 160 вопросов восьми разных областей знаний. В MT-Bench модель сталкивается с задачей ответить на первоначальный вопрос и затем дать продолжение к предопределенному вопросу. Качество ответа каждой модели оценивается с использованием шкалы от 1 до 10 GPT-4. Итоговый балл определяется средним рейтингом по двум ходам.

2. AlpacaEval: AlpacaEval, с другой стороны, является одноходовым бенчмарком, в котором моделям поручается генерировать ответы на 805 вопросов различных тематик, с основным уклоном на полезность. GPT-4 также оценивает ответы этих моделей. Однако, конечной метрикой является парный показатель победы по отношению к базовой модели.

Помимо этих бенчмарков, Hugging Face оценивает производительность ZEPHYR-7B на доске лидеров Open LLM. Эта доска предназначена для оценки языковых моделей в четырех многоклассовых классификационных задачах, включая ARC, HellaSwag, MMLU и Truthful QA. Каждая задача представляет уникальные сложности и требует от модели превосходных показателей точности классификации.

Результаты были весьма впечатляющими:

ZEPHYR-7B представляет собой важное подтверждение того, что маленькие высокопроизводительные LLM могут использоваться для высокоспециализированных задач.