Машинное обучение с экспертными моделями Введение

Машинное обучение с экспертными моделями

Как десятилетняя идея позволяет обучать чрезмерно большие нейронные сети сегодня

(Pexels)

Экспертные модели являются одним из самых полезных изобретений в области машинного обучения, но они редко получают столько внимания, сколько заслуживают. Фактически, экспертное моделирование не только позволяет нам обучать нейронные сети, которые являются “чрезмерно большими” (об этом позже), но и позволяет нам создавать модели, которые учатся больше похоже на человеческий мозг, то есть разные области специализируются на разных типах входных данных.

В этой статье мы рассмотрим ключевые инновации в экспертном моделировании, которые в конечном итоге привели к последним прорывам, таким как Switch Transformer и алгоритм Expert Choice Routing. Но давайте сначала вернемся к статье, которая все начала: “Смеси экспертов”.

Смеси экспертов (1991)

Оригинальная модель MoE из 1991 года. Изображение: Jabocs и др. 1991, Adaptive Mixtures of Local Experts.

Идея смесей экспертов (MoE) восходит более чем к 3 десятилетиям назад, к статье 1991 года, соавтором которой является ничто иное, как крестный отец искусственного интеллекта, Джеффри Хинтон. Основная идея MoE заключается в моделировании вывода “y” путем комбинирования нескольких “экспертов” E, вес каждого из которых контролируется “сетью маршрутизации” G:

Эксперт в этом контексте может быть любого вида моделью, но обычно выбирается многослойная нейронная сеть, а сеть маршрутизации –

где W – обучаемая матрица, которая назначает обучающие примеры экспертам. При обучении моделей MoE, цель обучения имеет двойное значение:

  1. эксперты научатся обрабатывать полученный вывод наилучшим образом (т.е. делать прогноз), и
  2. сеть маршрутизации научится “маршрутизировать” правильные обучающие примеры к правильным экспертам путем совместного обучения матрицы маршрутизации W.

Зачем это делать? И почему это работает? В общих чертах есть три основных мотивации для использования такого подхода:

Во-первых, MoE позволяет масштабировать нейронные сети до очень больших размеров благодаря разреженности полученной модели, то есть, несмотря на то, что общая модель большая, только небольшая…