Mistral AI (8x7b) выпускает первую в истории открытую модель Model Of Experts (MoE) модели.
Mistral AI (8x7b) представляет первую в истории доступную модель Model Of Experts (MoE) модели.
Мистраль продолжает свою приверженность миру открытого исходного кода, выпуская первую модель с 56 миллиардами токенов (8 моделей по 7 миллиардов токенов каждая) через Torrent !!
Несколько дней назад мы узнали, что GPT4 является моделью Model of Experts, которая якобы включает 8 моделей с 220 миллиардами параметров каждая, что придает ей колоссальный эффективный размер параметров в 1,76 триллиона. Если вам нужно вспомнить, я написал об этом статью.
Как работают 8 меньших моделей в GPT-4?
Автор(ы): Др. Мандар Кархаде, МД, PhD. Опубликовано в Towards AI. Тайная “Модель экспертов” раскрыта; погнали…
towardsai.net
- Раскрытие внутренней работы Глубокая погружение в механизм внимания BERT
- Создание Чатботов и Искусственных Интеллектовых Помощников
- Введение в смесь экспертов
Коротко и просто говоря, модель экспертов или MoE работает как оркестр моделей. Есть модель-дирижер, которая решает, какая из моделей может ответить на заданный вопрос или откликнуться на заданный контекст. Выбранная модель выдает результат и делится им в качестве ответа.
Есть и другие способы управления/оркестровки, например получение ответов от всех моделей и затем выбор правильного, или оценка ответов различных моделей и затем обратная передача ответа и так далее… но основная концепция общая! Есть мета-модель, которая действует как дирижер, чтобы выбирать подходящие ответы среди множества моделей (отсюда и Mixture of Models). Эти модели обучаются в определенных функциях или аспектах языка таким образом, что общая производительность модели значительно превышает производительность отдельной общей модели.
Это типичная стратегия 80:20. Эти экспертные модели могут отлично выполнять 80% задач по сравнению с большой моделью, поэтому их производительность превосходит. Кроме того, это эффективно снижает вычислительные затраты, поскольку каждый раз задействуется только одна из 8 моделей.
Возвращаемся к Mistral MoE
Мистраль выпустил в действительно стильном стиле Мистраль миниатюрную версию GPT4, которая была обучена (используя ответы от GPT4), сохраняя при этом большую часть функциональности, но существенно сократив размер. И эта модель доступна для бесплатной загрузки всем желающим ни на что не претендующим!