Повышение эффективности в Vision Transformers как разреженные мобильные Vision MoE превосходят плотные аналоги в ресурсоограниченных приложениях

Mobile Vision MoE, as sparse versions of Vision Transformers, outperform dense counterparts in resource-constrained applications, enhancing efficiency.

Архитектура нейронной сети, называемая Mixture-of-Experts (MoE), объединяет предсказания различных экспертных нейронных сетей. Модели MoE работают с сложными задачами, где несколько подзадач или элементов проблемы требуют специализированных знаний. Они были представлены для укрепления представлений нейронных сетей и позволяют им справляться с различными сложными задачами.

Кроме того, архитектура нейронной сети, известная как разреженная Mixture-of-Experts (MoE), расширяет идею обычных моделей MoE, добавляя разреженность к механизму управления. Эти модели созданы для повышения эффективности и масштабируемости дизайнов MoE, позволяя им справляться с крупномасштабными задачами при снижении затрат на вычисления.

Благодаря своей способности активировать только небольшую часть параметров модели для каждого входного токена, они могут разделить размер модели и эффективность вывода.

Все еще сложно совместить производительность и эффективность при использовании нейронных сетей (NN), особенно когда доступны только ограниченные вычислительные ресурсы. Разреженные модели Sparsely-gated Mixture-of-Experts (sparse MoEs), позволяющие отделить размер модели от эффективности вывода, недавно рассматриваются как потенциальное решение.

Разреженные MoEs предлагают возможность увеличения возможностей модели при минимальных вычислительных затратах. Это делает их вариантом для интеграции с Transformers, преобладающим архитектурным выбором для моделирования крупномасштабных визуальных данных.

В результате исследовательская группа Apple представила концепцию разреженных Mobile Vision MoEs в своей статье под названием Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts. Эти V-MoEs являются эффективным, удобным для мобильных устройств дизайном Mixture-of-Experts, который сохраняет высокую производительность модели при уменьшении размеров Vision Transformers (ViTs).

Исследователи подчеркнули, что разработали простую, но надежную процедуру обучения, в которой избегается дисбаланс экспертов с помощью семантических суперклассов, используемых для обучения маршрутизатора. Она использует один маршрутизатор на изображение, в отличие от маршрутизации по патчам. В традиционной маршрутизации по патчам обычно активируется больше экспертов для каждого изображения. Однако маршрутизация по изображению уменьшает количество активируемых экспертов на изображение.

Исследовательская группа начала фазу обучения, обучив базовую модель. Затем были зафиксированы предсказания модели на проверочном наборе, который был удержан от обучающего набора данных, чтобы создать матрицу путаницы. Затем эта матрица путаницы была подвергнута алгоритму кластеризации графов. В результате этого процесса были созданы суперклассы.

Они сказали, что модель представляет эмпирические результаты на стандартном классификационном бенчмарке ImageNet-1k. Все модели были обучены с нуля на обучающем наборе ImageNet-1k, состоящем из 1,28 миллиона изображений, а затем оценена их точность top-1 на проверочном наборе из 50 тысяч изображений.

Исследователи планируют использовать дизайн MoE в других моделях, удобных для мобильных устройств, помимо ViTs в будущем. Они также намерены рассмотреть другие визуальные задачи, такие как обнаружение объектов. Кроме того, они хотят измерить фактическую задержку на устройстве для всех моделей.