Mistral AI (8x7b) выпускает первую в истории открытую модель Model Of Experts (MoE) модели.

Mistral AI (8x7b) представляет первую в истории доступную модель Model Of Experts (MoE) модели.

Мистраль продолжает свою приверженность миру открытого исходного кода, выпуская первую модель с 56 миллиардами токенов (8 моделей по 7 миллиардов токенов каждая) через Torrent !!

Несколько дней назад мы узнали, что GPT4 является моделью Model of Experts, которая якобы включает 8 моделей с 220 миллиардами параметров каждая, что придает ей колоссальный эффективный размер параметров в 1,76 триллиона. Если вам нужно вспомнить, я написал об этом статью.

Как работают 8 меньших моделей в GPT-4?

Автор(ы): Др. Мандар Кархаде, МД, PhD. Опубликовано в Towards AI. Тайная “Модель экспертов” раскрыта; погнали…

towardsai.net

Коротко и просто говоря, модель экспертов или MoE работает как оркестр моделей. Есть модель-дирижер, которая решает, какая из моделей может ответить на заданный вопрос или откликнуться на заданный контекст. Выбранная модель выдает результат и делится им в качестве ответа.

Есть и другие способы управления/оркестровки, например получение ответов от всех моделей и затем выбор правильного, или оценка ответов различных моделей и затем обратная передача ответа и так далее… но основная концепция общая! Есть мета-модель, которая действует как дирижер, чтобы выбирать подходящие ответы среди множества моделей (отсюда и Mixture of Models). Эти модели обучаются в определенных функциях или аспектах языка таким образом, что общая производительность модели значительно превышает производительность отдельной общей модели.

Это типичная стратегия 80:20. Эти экспертные модели могут отлично выполнять 80% задач по сравнению с большой моделью, поэтому их производительность превосходит. Кроме того, это эффективно снижает вычислительные затраты, поскольку каждый раз задействуется только одна из 8 моделей.

Возвращаемся к Mistral MoE

Мистраль выпустил в действительно стильном стиле Мистраль миниатюрную версию GPT4, которая была обучена (используя ответы от GPT4), сохраняя при этом большую часть функциональности, но существенно сократив размер. И эта модель доступна для бесплатной загрузки всем желающим ни на что не претендующим!