Mixtral-8x7B Понимание и управление разреженной смесью экспертов

Понимание и управление разреженной смесью экспертов с Mixtral-8x7B

Как эффективно превзойти GPT-3.5 и Llama 2 70B

Изображение от 8385 на Pixabay

Большинство недавних моделей большого объема языка (LLM) используют очень похожие нейронные архитектуры. Например, модели Falcon, Mistral и Llama 2 используют схожую комбинацию модулей само-внимания и MLP.

В отличие от этого, Mistral AI, которая также создала Mistral 7B, только что выпустила новую LLM с существенно отличающейся архитектурой: Mixtral-8x7B, разреженную смесь из 8 экспертных моделей.

Всего Mixtral содержит 46,7 миллиардов параметров. Однако благодаря своей архитектуре Mixtral-8x7B может эффективно работать на потребительском оборудовании. Вывод с Mixtral-8x7B на самом деле значительно быстрее, чем у других моделей с аналогичным размером, при этом она превосходит их в большинстве задач.

В этой статье я объясню, что такое разреженная смесь экспертов и почему она работает быстрее для вывода, чем стандартная модель. Затем мы рассмотрим, как использовать и настраивать Mixtral-8x7B на потребительском оборудовании.

Я создал блокнот, демонстрирующий тонкую настройку и вывод QLoRA с использованием Mixtral-8x7B здесь:

Получите блокнот (#32)

Разреженная смесь экспертов

Изображение от автора

Разреженная смесь экспертов (SMoE) – это тип нейронной сети, разработанный для повышения эффективности и масштабируемости традиционных моделей. Концепция смеси экспертов была представлена для того, чтобы позволить модели изучать разные части входного пространства с использованием специализированных подсетей “экспертов”. В Mixtral есть 8 таких подсетей экспертов.

Обратите внимание, что “8x7B” в названии модели немного вводит в заблуждение. В модели есть в общей сложности 46,7 миллиардов параметров, что на почти 10 миллиардов параметров меньше, чем то, что дала бы комбинация параметров 8x7B. Фактически, Mixtral-8x7B – это не модель с 56 миллиардами параметров, так как несколько модулей, такие как модули для само-внимания, являются общими для 8 подсетей экспертов.

Если загрузить и распечатать модель с помощью Transformers, структура модели будет понятнее:

MixtralForCausalLM(…