Познакомьтесь с Mixtral 8x7b Революционной языковой моделью от Mistral, которая превосходит GPT-3.5 в доступе к искусственному интеллекту с открытым исходным кодом.

Знакомство с Mixtral 8x7b революционная модель от Mistral, превосходящая GPT-3.5 в доступе к открытому искусственному интеллекту

Область использования больших языковых моделей сделала замечательный шаг вперед с появлением Mixtral 8x7b. Mistral AI разработала эту новую модель с впечатляющими возможностями и уникальной архитектурой, отличающей ее от остальных. Она заменила прямолинейные слои на разреженный слой смеси экспертов (Mixture of Expert, MoE), трансформирующий подход в моделях-трансформерах.

Mixtral 8x7b имеет в своем составе восемь экспертных моделей, объединенных в одну рамку. Эта модель является смесью экспертов (MoE) и позволяет Mixtral достигать выдающихся результатов.

Смесь экспертов может позволить моделям быть предварительно обученными с гораздо меньшими вычислительными мощностями. Это означает, что размер модели или набора данных может значительно увеличиваться без увеличения бюджета вычислений.

В слой MoE включена сеть маршрутизации, которая эффективно выбирает, какие эксперты обрабатывают какие токены. Несмотря на то, что у модели Mixtral вчетверо больше параметров, чем у 12B параметричной модели, модель Mixtral может декодировать быстро, потому что для каждого шага времени выбираются два эксперта.

Модель Mixtral 8x7b имеет емкость контекста до 32 000 токенов, превосходя модели Llama 2 70B и демонстрируя сравнимые или более высокие результаты по различным тестам по сравнению с GPT3.5. Исследователи заявили, что модель является универсальной в различных приложениях. Она может быть многоязычной и демонстрирует свою грамотность на английском, французском, немецком, испанском и итальянском языках. Ее способность к программированию также впечатляет; она набрала 40,2% в тестах HumanEval, что подтверждает ее позицию в качестве комплексного инструмента обработки естественного языка.

Mixtral Instruct продемонстрировал свою работоспособность по стандартам отрасли, таким как MT-Bench и AlpacaEval. Он работает лучше всех других моделей с открытым доступом в MT-Bench и сопоставим по результатам с GPT-3.5. Несмотря на то, что у модели семь миллиардов параметров, она функционирует как ансамбль из восьми. В то время как ей может не хватать масштаба 56 миллиардов параметров, общее количество параметров составляет примерно 45 миллиардов. Кроме того, Mixtral Instruct превосходит в области моделей для инструкций и диалогов, подтверждая свое преимущество.

Базовая модель Mixtral Instruct не имеет конкретного формата подсказки, соответствующего другим базовым моделям. Эта гибкость позволяет пользователям плавно расширять последовательность ввода с плаусибельным продолжением или использовать ее для нулевого/небольшого вывода.

Однако полная информация о размерах, составе и методах предварительной обработки базы данных все еще нуждается в уточнении. Аналогично, до сих пор неизвестно, какие наборы данных и связанные гиперпараметры для настройки использовались для DPO (Целей, предоставляемых доменом) и SFT (Некоторой настройки) модели Mixtral Instruct.

В заключение, Mixtral 8x7b изменил игру в языковых моделях, сочетая в себе высокую производительность, адаптируемость и креативность. Пока исследовательская община исследует архитектуру Mistral и оценивает ее, исследователи с нетерпением ждут последствий и применений этой передовой языковой модели. Возможности 8x7B MoE могут создать новые возможности для научных исследований и разработки, образования, здравоохранения и науки.

Статья Meet Mixtral 8x7b: The Revolutionary Language Model from Mistral that Surpasses GPT-3.5 in Open-Access AI была опубликована на сайте MarkTechPost.