Понимание модели смеси экспертов
Восприятие модели смешения экспертов
Новые исследования раскрывают, что происходит внутри при обучении моделей MoE
Модели смешения экспертов (MoE) быстро стали одной из самых мощных технологий в современных приложениях машинного обучения, позволяющих достичь прорыва, таких как Transformer Switch и GPT-4. На самом деле, мы только начинаем видеть их полный потенциал!
Однако удивительно мало известно о том, почему MoE работает в первую очередь. Когда MoE работает? Почему ворота просто не отправляют все обучающие примеры к одному эксперту? Почему модель не распадается на состояние, в котором все эксперты идентичны? Как именно эксперты специализируются и на что? Что именно учится воротами?
К счастью, исследования начинают проливать свет на эти вопросы. Давайте посмотрим.
MoE модели – введение в освещение
Как краткое напоминание, MoE была изобретена в статье 1991 года “Адаптивные смеси локальных экспертов”, соавтором которой является ничто иное, как дедушка искусственного интеллекта сам по себе, Джеффри Хинтон. Основная идея MoE заключается в моделировании вывода y на основе входа x путем комбинирования нескольких “экспертов” E, вес каждого из которых контролируется “сетью ворот” G,
- Расширенная генерация с помощью поиска (RAG) от теории к реализации LangChain
- TSMixer Последняя модель прогнозирования от Google
- Microsoft Azure Даря возможности будущему облачных вычислений
где сеть ворот G задается простой линейной моделью,
где W является обучаемой матрицей, которая назначает обучающие примеры экспертам. При обучении моделей MoE, цель обучения двойная:
- эксперты научатся обрабатывать вход, который они получают, для получения наилучшего возможного вывода (то есть прогнозирования), и
- ворота научатся “маршрутизировать” правильные обучающие примеры к правильным экспертам, то есть изучить матрицу маршрутизации W.
Было показано, что MoE особенно мощна, когда мы выполняем вычисления только на одном эксперте с наибольшим значением ворот, то есть мы приближаем y как
где I – индекс максимального значения G. Это называется “жесткой маршрутизацией” или “разреженными воротами” и стало ключевой техникой, лежащей в основе прорывных разработок, таких как Switch…