Понимание модели смеси экспертов

Восприятие модели смешения экспертов

Новые исследования раскрывают, что происходит внутри при обучении моделей MoE

Изображение, созданное автором с помощью Midjourney

Модели смешения экспертов (MoE) быстро стали одной из самых мощных технологий в современных приложениях машинного обучения, позволяющих достичь прорыва, таких как Transformer Switch и GPT-4. На самом деле, мы только начинаем видеть их полный потенциал!

Однако удивительно мало известно о том, почему MoE работает в первую очередь. Когда MoE работает? Почему ворота просто не отправляют все обучающие примеры к одному эксперту? Почему модель не распадается на состояние, в котором все эксперты идентичны? Как именно эксперты специализируются и на что? Что именно учится воротами?

К счастью, исследования начинают проливать свет на эти вопросы. Давайте посмотрим.

MoE модели – введение в освещение

Источник изображения: Адаптивные смеси локальных экспертов

Как краткое напоминание, MoE была изобретена в статье 1991 года “Адаптивные смеси локальных экспертов”, соавтором которой является ничто иное, как дедушка искусственного интеллекта сам по себе, Джеффри Хинтон. Основная идея MoE заключается в моделировании вывода y на основе входа x путем комбинирования нескольких “экспертов” E, вес каждого из которых контролируется “сетью ворот” G,

где сеть ворот G задается простой линейной моделью,

где W является обучаемой матрицей, которая назначает обучающие примеры экспертам. При обучении моделей MoE, цель обучения двойная:

  1. эксперты научатся обрабатывать вход, который они получают, для получения наилучшего возможного вывода (то есть прогнозирования), и
  2. ворота научатся “маршрутизировать” правильные обучающие примеры к правильным экспертам, то есть изучить матрицу маршрутизации W.

Было показано, что MoE особенно мощна, когда мы выполняем вычисления только на одном эксперте с наибольшим значением ворот, то есть мы приближаем y как

где I – индекс максимального значения G. Это называется “жесткой маршрутизацией” или “разреженными воротами” и стало ключевой техникой, лежащей в основе прорывных разработок, таких как Switch…