Что мы знаем о Mixtral 8x7B новая открытая LLM платформа от Mistral

Все, что нужно знать о новой открытой платформе LLM Mistral - Mixtral 8x7B

Новая модель использует инновационную смесь экспертной архитектуры.

Создано с использованием DALL-E

Недавно я начал писать информационный бюллетень, посвященный искусственному интеллекту, который уже имеет более 160 000 подписчиков. TheSequence – это бюллетень, посвященный машинному обучению, который занимает всего 5 минут вашего времени. Цель заключается в том, чтобы держать вас в курсе проектов по машинному обучению, исследовательских статей и концепций. Пожалуйста, ознакомьтесь с ним, подписавшись ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник, чтобы быть в курсе разработок в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

Mistral AI – одна из самых инновационных компаний, расширяющих границы открытых моделей с использованием моделей языка на основе машинного обучения. Первый выпуск Mistral – Mistral 7B – стал одной из самых популярных моделей на рынке. Несколько дней назад они выложили торрент-ссылку с Mixtral 8x7B – своим вторым выпуском, который вызывает интерес.

То, что делает Mixtral 8x7B настолько интересным, это тот факт, что он исследует новую парадигму архитектуры, противоположную монолитному подходу, принятому большинством моделей на основе машинного обучения. Модель основана на подходе смеси экспертов, который, хотя и не нов, еще не был полностью применен в области моделей языка на основе машинного обучения.

О Mixtral 8x7B публикуется не так много информации, но ниже я приведу некоторые детали, которые могут быть важными:

Архитектура

Mixtral 8x7B основана на разреженной архитектуре смеси экспертов (SMoE), объединяющей методики разреженного моделирования с фреймворком смеси экспертов.

В теории глубокого обучения разреженные модели все более признаются за их потенциал. В отличие от традиционных плотных моделей, где каждый компонент взаимодействует со всеми входными данными, разреженные модели используют метод, известный как условное вычисление. Эта техника позволяет Mistral направлять конкретные входные данные к определенным экспертам внутри своей обширной сети. Этот подход имеет несколько преимуществ. Одно из самых заметных – возможность расширения размера модели без пропорционального увеличения вычислительной нагрузки. Это масштабируемость не только эффективна, но также является экологически устойчивой, что крайне важно для достижения высокой производительности в моделях искусственного интеллекта. Кроме того, разреженность в нейронных сетях приводит к естественной сегментации, что полезно в сценариях многозадачности и постоянного обучения. Плотные модели часто испытывают проблемы с этими задачами, сталкиваясь с проблемами, такими как отрицательное взаимное влияние или катаклизмическое забывание, когда одновременное или последовательное обучение большому числу задач приводит к снижению производительности на ранних задачах.

Компонент SMoE Mistral состоит из нескольких экспертов, каждый из которых представляет собой простую прямую нейронную сеть. Эти эксперты управляются обучаемой сетью ворот. Роль воротной сети является решающей: она определяет, какая комбинация экспертов должна быть активирована для конкретного входа. Этот процесс выбора является разреженным, что означает, что для любого заданного входа выбирается только несколько экспертов. Вся сеть Mistral, включая экспертов и систему ворот, оптимизируется с помощью обратного распространения ошибки – основного метода обучения нейронных сетей. Этот интегрированный подход к обучению гарантирует, что все компоненты Mistral работают в гармонии, оптимизируя его производительность в обработке и анализе данных.

Изображение: https://arxiv.org/abs/1701.06538

Mixtral 8x7B

Mixtral 8x7B основана на архитектуре SMoE. Эта модель, отличающаяся открытой архитектурой весов, свободно доступна по лицензии Apache 2.0. В области тестовых показателей искусственного интеллекта Mistral продемонстрировала высокую эффективность, превосходя модель Llama 2 70B в большинстве оценок, предлагая при этом в шесть раз более быстрое выводное время. Она выделяется как самая эффективная модель с открытой архитектурой, доступная по лицензии Apache 2.0 и превосходящая по производительности GPT3.5 в стандартных тестах.

Возможности Mistral многофасетны. Он легко обрабатывает обширные контексты, справляясь с до 32000 токенов. Его языковые навыки охватывают несколько языков, включая английский, французский, итальянский, немецкий и испанский. В области генерации кода Mistral проявляет замечательные возможности. Кроме того, когда он настраивается как модель, следующая инструкция, он достигает впечатляющего результата 8,3 по MT-Bench.

Mixtral 8x7B, использующая некоторую сеть, полагается на модель только декодера. Его архитектура отличается блоком прямого распространения, который выбирает из восьми различных групп параметров. Для каждого токена на каждом уровне специализированная сеть маршрутизатора выбирает две из этих групп, называемых “экспертами”, для обработки токена. Затем их выходы объединяются аддитивно. Эта инновационная техника позволяет Mistral увеличить количество параметров, сохраняя контроль над стоимостью и задержкой. По сути, Mistral может похвастаться общим количеством 45 миллиардов параметров, но использует только 12 миллиардов на токен. В результате он обрабатывает входные данные и генерирует выходы с той же эффективностью и стоимостью, что и модель с 12 миллиардами параметров.

Обучение Mistral проводится на данных, полученных из открытой сети, с одновременным фокусом на развитии как экспертов, так и сетей маршрутизации. Этот подход лежит в основе его продвинутых возможностей и эффективности, располагая Mistral к лидерам открытых моделей с разреженными архитектурами в области искусственного интеллекта.

Вместе с базовым релизом Mistral выпустила Mixtral 8x7B Instruct – модель, следующую инструкциям, оптимизированную с помощью надзорного дообучения и прямой оптимизации предпочтений (DPO).

Производительность

Mistral оценила Mistral 8x7B в различных бенчмарках, в которых модель соответствовала производительности намного более крупных моделей, таких как LLaMA 2 70B и GPT 3.5.

Image Credit: Mistral AI

Следующие диаграммы показывают производительность по отношению к бюджету вывода по нескольким ключевым возможностям:

Image Credit: Mistral AI

Использование Mixtral 8x7B

Mixtral 8x7B только что была выпущена и, следовательно, еще не была адаптирована для многих платформ. Основной способ использования модели – через новоанонсированную платформу Mistral:

from mistralai.client import MistralClientfrom mistralai.models.chat_completion import ChatMessageapi_key = os.environ["MISTRAL_API_KEY"]model = "mistral-small"client = MistralClient(api_key=api_key)messages = [    ChatMessage(role="user", content="Какой лучший французский сыр?")]# Нет поточного ввода данных.chat_response = client.chat(    model=model,    messages=messages,)# С поточным вводом данных.for chunk in client.chat_stream(model=model, messages=messages):    print(chunk)

Кроме того, модель можно использовать через Hugging Face:

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "mistralai/Mixtral-8x7B-v0.1"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id)text = "Привет, меня зовут"inputs = tokenizer(text, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=20)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Mixtral 8x7B представляет интересный шаг в развитии открытых моделей LLM. Надеюсь, что в ближайшие несколько недель будут раскрыты более подробные сведения о модели.