Последняя модель Mistral AI – смесь экспертов (MoE) 8x7B

Новейшая модель Mistral AI синтез экспертов (MoE) 8x7B

Mistral AI, которая является стартапом открытых моделей на основе Парижа, представила свою последнюю большую языковую модель (LLM), MoE 8x7B, через простую ссылку на торрент. Этот подход противоречит традиционному подходу Google с их релизом Gemini, что вызвало разговоры и волнение в AI-сообществе.

Подход Mistral AI к релизам всегда был необычным. Часто они отказываются от обычных сопутствующих материалов, таких как статьи, блоги или пресс-релизы, и их стратегия уникальным образом привлекает внимание AI-сообщества.

Недавно компания достигла выдающейся оценки в 2 миллиарда долларов после раунда финансирования под руководством Andreessen Horowitz. Этот раунд финансирования стал историческим, установив рекорд семенного раунда в 118 миллионов долларов, самого большого в истории Европы. Помимо успехов в финансировании, активное участие Mistral AI в дискуссиях вокруг закона ЕС о искусственном интеллекте, выступая за сокращение регулирования в отношении открытого AI.

Почему MoE 8x7B привлекает внимание

Описываемый как «уменьшенный GPT-4», Mixtral 8x7B использует модуль Mixture of Experts (MoE) с восьмью экспертами. Каждый эксперт имеет 111 миллиардов параметров, а также 55 миллиардов общих параметров внимания, всего 166 миллиардов параметров на каждую модель. Этот выбор дизайна имеет большое значение, поскольку позволяет задействовать только двух экспертов при выводе каждого токена, подчеркивая переход к более эффективной и направленной обработке AI.

Одним из основных достоинств Mixtral является его способность работать с широким контекстом из 32 000 токенов, что обеспечивает дополнительные возможности для выполнения сложных задач. Модель обладает мультиязычными возможностями и обеспечивает надежную поддержку английского, французского, итальянского, немецкого и испанского языков, что учитывает глобальное разработческое сообщество.

Обучение Mixtral включает данные, полученные из открытого веба, с одновременным обучением экспертов и маршрутизаторов. Такой подход обеспечивает не только масштабность модели по параметрам, но и ее тонкую настройку под особенности огромного объема данных, с которыми она имела дело.

Mixtral 8x7B достигает впечатляющего результата

Mixtral 8x7B достигает впечатляющего результата

Mixtral 8x7B превосходит LLaMA 2 70B и конкурирует с GPT-3.5, особенно отлично справляясь с задачей MBPP с успехом в 60,7%, значительно превышающим аналоги. Даже в строгом тесте MT-Bench, предназначенном для моделей, следующих инструкциям, Mixtral 8x7B продемонстрировал впечатляющий результат, почти сравнявшись с GPT-3.5.

Понимание модели Mixture of Experts (MoE)

Модель Mixture of Experts (MoE), которая недавно привлекла внимание официальных языковых моделей таких компаний, как Mistral AI с их моделью MoE 8x7B, фактически имеет корни в фундаментальных концепциях, существующих на протяжении нескольких лет. Давайте вспомним оригинальные идеи этой модели, отраженные в научных статьях.

Концепция MoE

Mixture of Experts (MoE) представляет собой парадигмальный сдвиг в архитектуре нейронных сетей. В отличие от традиционных моделей, которые используют единственную, гомогенную сеть для обработки всех типов данных, MoE принимает более специализированный и модульный подход. Он состоит из нескольких экспертных сетей, каждая из которых предназначена для обработки определенных типов данных или задач, и контролируется управляющей сетью, которая динамически направляет входные данные в наиболее подходящий экспертный уровень.

Слой Mixture of Experts (MoE), встроенный в рекуррентную языковую модель

Слой Mixture of Experts (MoE), встроенный в рекуррентную языковую модель (Источник)

Выше представлено высокоуровневое представление слоя MoE, встроенного в языковую модель. В основе слоя MoE находятся несколько форвардных подсетей, называемых “экспертами”, каждая из которых специализируется на обработке разных аспектов данных. Сеть управления, выделенная на диаграмме, определяет, какая комбинация этих экспертов будет задействована для данного входа. Такая условная активация позволяет сети значительно увеличить ее мощность без соответствующего всплеска вычислительного спроса.

Функциональность слоя MoE

На практике сеть управления оценивает вход (обозначенный как G(x) на диаграмме) и выбирает разреженный набор экспертов для его обработки. Этот выбор модулируется выходами сети управления, определяя “голос” или вклад каждого эксперта в конечный вывод. Например, как показано на диаграмме, для вычисления вывода для каждого конкретного входного токена могут быть выбраны только два эксперта, что делает процесс эффективным, сосредотачивая вычислительные ресурсы там, где они наиболее нужны.

Transformer Encoder с слоями MoE (Источник)

На второй иллюстрации выше показано сравнение традиционного кодировщика Transformer с моделью, дополненной слоем MoE. Архитектура Transformer, широко известная своей эффективностью в задачах, связанных с языком, традиционно состоит из последовательностей слоев самовнимания и форвардных слоев. Введение слоев MoE заменяет некоторые из этих форвардных слоев, позволяя модели эффективнее масштабироваться в отношении ее мощности.

В расширенной модели слои MoE разделены на несколько устройств, что демонстрирует модельный параллельный подход. Это критично при масштабировании очень больших моделей, так как это позволяет распределить вычислительную нагрузку и требования к памяти по кластеру устройств, таким как GPU или TPU. Этот подход сегментации является необходимым для обучения и развертывания моделей с миллиардами параметров эффективно, как это подтверждается обучением моделей с сотнями миллиардов и более трлн параметров на крупных вычислительных кластерах.

Разреженный подход MoE с настройкой инструкций на LLM

В статье “Разреженная модель Mixture-of-Experts (MoE) для масштабирования языкового моделирования” рассматривается новаторский подход к улучшению крупных языковых моделей (LLM) путем интеграции архитектуры Mixture of Experts с техниками настройки инструкций.

В ней подчеркивается распространенная проблема, когда модели MoE производят худшие результаты по сравнению с плотными моделями с одинаковой вычислительной мощностью при точной настройке для конкретных задач из-за несоответствия между общей предварительной настройкой и конкретной настройкой задачи.

Настройка инструкций – это методология обучения, при которой модели уточняются для лучшего следования естественным языковым инструкциям, эффективно улучшая их производительность. В статье предлагается, что модели MoE демонстрируют значительное улучшение при комбинировании с настройкой инструкций, больше, чем у их плотных аналогов. Эта техника выравнивает предварительно обученные представления модели для более эффективного следования инструкциям, что приводит к значительному повышению производительности.

Исследователи провели исследования в рамках трех экспериментальных установок, показывая, что модели MoE изначально демонстрируют худшие результаты при прямой настройке для конкретной задачи. Однако, когда применяется настройка инструкций, модели MoE превосходят другие модели, особенно когда это дополняется конкретной настройкой задачи. Это указывает на то, что настройка инструкций является важным шагом для того, чтобы модели MoE превосходили плотные модели по результатам в конечных задачах.

Эффект настройки инструкций на MOE

Эффект настройки инструкций на MOE

Также вводится модель FLAN-MOE32B, которая демонстрирует успешное применение этих концепций. Отмечается, что она превосходит модель FLAN-PALM62B, плотную модель, по результатам определенных задач, используя только треть вычислительных ресурсов. Это демонстрирует потенциал разреженных моделей MoE в сочетании с настройкой инструкций для установления новых стандартов эффективности и производительности LLM.

Внедрение модели Mixture of Experts в реальные сценарии

Многосторонность моделей MoE делает их идеальными для ряда приложений:

  • Обработка естественного языка (NLP): Модели MoE могут более эффективно обрабатывать нюансы и сложности человеческого языка, что делает их идеальными для продвинутых задач NLP.
  • Обработка изображений и видео: В задачах, требующих обработки изображений с высоким разрешением, MoE может управлять различными аспектами изображений или видеокадров, улучшая как качество, так и скорость обработки.
  • Настроенные AI-решения: Компании и исследователи могут настраивать модели MoE для конкретных задач, что приводит к более целевому и эффективному применению искусственного интеллекта.

Вызовы и особенности

Хотя модели MoE предлагают множество преимуществ, они также представляют уникальные вызовы:

  • Сложность обучения и настройки: Распределенная структура моделей MoE может осложнить процесс обучения, требуя тщательного балансирования и настройки экспертов и сети управления доступом.
  • Управление ресурсами: Эффективное управление вычислительными ресурсами между несколькими экспертами является ключевым для максимизации выгод от моделей MoE.

Внедрение слоев MoE в нейронные сети, особенно в области языковых моделей, открывает путь к масштабированию моделей до размеров, которые ранее были невозможны из-за вычислительных ограничений. Условные вычисления, возможные благодаря слоям MoE, позволяют более эффективно распределить вычислительные ресурсы, что делает возможным обучение более крупных и более способных моделей. По мере того, как мы продолжаем требовать все большего от наших систем искусственного интеллекта, архитектуры, подобные МоЕ-оснащенному преобразователю, скорее всего станут стандартом для обработки сложных задач большого масштаба в различных областях.