Машинное обучение с экспертными моделями Введение
Машинное обучение с экспертными моделями
Как десятилетняя идея позволяет обучать чрезмерно большие нейронные сети сегодня
![(Pexels)](https://miro.medium.com/v2/resize:fit:640/format:webp/1*CXfXNUFnY4Y9LCyWMLlkwg.jpeg)
Экспертные модели являются одним из самых полезных изобретений в области машинного обучения, но они редко получают столько внимания, сколько заслуживают. Фактически, экспертное моделирование не только позволяет нам обучать нейронные сети, которые являются “чрезмерно большими” (об этом позже), но и позволяет нам создавать модели, которые учатся больше похоже на человеческий мозг, то есть разные области специализируются на разных типах входных данных.
В этой статье мы рассмотрим ключевые инновации в экспертном моделировании, которые в конечном итоге привели к последним прорывам, таким как Switch Transformer и алгоритм Expert Choice Routing. Но давайте сначала вернемся к статье, которая все начала: “Смеси экспертов”.
Смеси экспертов (1991)
![Оригинальная модель MoE из 1991 года. Изображение: Jabocs и др. 1991, Adaptive Mixtures of Local Experts.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Nu6cVmRFzrvR2EVJ4gNNaA.png)
Идея смесей экспертов (MoE) восходит более чем к 3 десятилетиям назад, к статье 1991 года, соавтором которой является ничто иное, как крестный отец искусственного интеллекта, Джеффри Хинтон. Основная идея MoE заключается в моделировании вывода “y” путем комбинирования нескольких “экспертов” E, вес каждого из которых контролируется “сетью маршрутизации” G:
Эксперт в этом контексте может быть любого вида моделью, но обычно выбирается многослойная нейронная сеть, а сеть маршрутизации –
- Эффективное балансирование нагрузки с использованием Ray на Amazon SageMaker
- Общение по вашим требованиям мой путь применения генеративного искусственного интеллекта (LLM) к программным требованиям
- Создание пользовательских навыков для чат-ботов с помощью плагинов
где W – обучаемая матрица, которая назначает обучающие примеры экспертам. При обучении моделей MoE, цель обучения имеет двойное значение:
- эксперты научатся обрабатывать полученный вывод наилучшим образом (т.е. делать прогноз), и
- сеть маршрутизации научится “маршрутизировать” правильные обучающие примеры к правильным экспертам путем совместного обучения матрицы маршрутизации W.
Зачем это делать? И почему это работает? В общих чертах есть три основных мотивации для использования такого подхода:
Во-первых, MoE позволяет масштабировать нейронные сети до очень больших размеров благодаря разреженности полученной модели, то есть, несмотря на то, что общая модель большая, только небольшая…