Исследователи из CMU и Принстонского университета представляют Mamba прорывную архитектуру SSM, превосходящую эффективность трансформатора для мультимодальных приложений глубокого обучения.

Мамба новейшая архитектура SSM от исследователей CMU и Принстонского университета, превосходящая эффективность трансформатора для мультимодальных задач глубокого обучения.

В современном машинном обучении фундаментальные модели, обширные модели, предварительно обученные на огромных объемах данных и затем модифицированные для последующих задач, стали успешным парадигмой. Модели последовательностей, которые работают с произвольными последовательностями входных данных из широкого спектра областей, включая язык, картинки, речь, звук, временные ряды и геномы, часто являются основой таких FM. Несмотря на то, что эта идея не зависит от конкретной модели, Трансформер и его центральный слой внимания являются основой для большинства современных FM. Самообращение эффективно, потому что оно может представлять сложные факты, тщательно маршрутизируя информацию внутри контекстного окна. 

Однако это свойство имеет два основных недостатка. Один – квадратичное масштабирование относительно длины окна, второй – неспособность описать что-либо за пределами ограниченного окна. Чтобы устранить эти недостатки, было проведено множество исследований по более эффективным стратегиям, связанным с вниманием; однако часто это осуществляется за счет тех же характеристик, которые делают внимание успешным. Эти вариации еще не были показаны эмпирически успешными в шкале по разным областям. Структурированные модели последовательностей состояний являются новым и захватывающим семейством архитектур моделирования последовательностей. Они черпают влияние из традиционных моделей состояний и могут быть рассмотрены как гибрид сверточных и рекуррентных нейронных сетей. 

У этой семьи моделей линейное или почти линейное масштабирование по длине последовательности, а также их вычисление может быть проведено очень быстро в виде рекуррентного просчета или свертки. Они также доминировали в основных показателях, таких как Long Range Arena, и стали инструментами для моделирования долгосрочной взаимозависимости в некоторых данных. Множество разновидностей моделей последовательностей состояний показали высокую эффективность в областях, таких как звук и видео, требующих непрерывных сигнальных данных. Они еще не столь успешны в моделировании дискретных информационно-насыщенных материалов, таких как текст. 

Исследовательская группа из Карнеги-Меллонского университета и Принстонского университета предлагает новую категорию выбранных моделей пространства состояний, которые улучшают предыдущие исследования во многих аспектах, чтобы получить возможность моделирования, подобную Трансформеру, сохраняя линейную связь с длиной последовательности. 

  1. Механизм выбора. Во-первых, мы указываем на существенное ограничение предыдущих моделей: их неспособность эффективно выбирать данные с помощью входа. Исследовательская группа предоставляет простой процесс выбора путем параметризации параметров SSM в соответствии с входными данными, используя понимание, полученное из значительных синтетических задач, таких как выборочное копирование и индуктивные головы. Это позволяет модели сохранять соответствующую информацию навсегда, устраняя ненужные данные. 
  1. Учет аппаратных средств. Эта простая модификация технически вызывает испытания вычислительной модели; все предыдущие модели SSM должны быть инвариантными к вводу и времени, чтобы быть вычислительно эффективными. Чтобы предотвратить доступ к входным/выходным данным между различными слоями иерархии памяти GPU, мы решаем эту проблему с помощью аппаратно-осознанного подхода, который вычисляет модель рекурсивно с использованием сканирования вместо свертки. Однако увеличенное состояние не материализуется. Полученная реализация быстрее, чем предыдущие техники на современном оборудовании и в проектировании этажерки. 
  1. Архитектура. Чтобы предоставить простую и однородную архитектурную конструкцию, объединяющую определенные пространства состояний из предыдущих архитектур SSM и блок MLP Трансформеров в один блок, упрощающий предыдущие конструкции глубоких последовательностей моделей. 

Основные особенности выборочных SSM и архитектуры Mamba позволяют им стать основой более широких фундаментальных моделей, которые работают со всеми рекуррентными моделями, являются:

(i) Высокое качество: выборочность хорошо проявляется на плотных модальностях, таких как генетика и язык

(ii) Быстрая выводная и тренировочная информация: при выводе развертывание модели авторегрессивно занимает постоянное время на каждом шаге, поскольку не требуется кэш прежних компонентов, а вычисления и память масштабируются линейно по длине последовательности

(iii) Длинный контекст: комбинация качества и эффективности приводит к улучшению показателей работы на реальных данных до длины последовательности 1M

Исследовательская группа эмпирически подтверждает потенциал Мамба как общей основы фундаментальных моделей последовательностей в различных модальностях и ситуациях, касающихся качества предварительного обучения и производительности задач в конкретной области:

• Искусственные материалы. Mamba не только легко решает ключевые синтетические задачи, такие как копирование и индукционные головы, которые были предложены как важные для обширных языковых моделей, но также может экстраполировать бесконечно длинные решения. 

• Геномика и звук. В отношении качества предварительного обучения и метрик на других этапах Mamba превосходит предыдущие современные модели, такие как SaShiMi, Hyena и Трансформеры при моделировании аудио-волн и последовательностей ДНК. При увеличении контекста производительность повышается до длины последовательности миллиона в обоих контекстах. 

• Моделирующий язык. Мамба представляет собой первую линейно-временную последовательную модель, которая действительно достигает производительности, сравнимой с трансформером, как в оценках, проводимых вниз по течению, так и в смущении предварительного обучения.

Исследовательская группа демонстрирует, что Мамба превосходит множество базовых вариантов, включая высокоэффективные современные рецепты обучения трансформеров, основанные на LLaMa, соответствующим масштабным правилам до 1 миллиарда параметров. По сравнению с трансформерами сравнимого размера, их модель языка Мамба имеет производительность в 5 раз больше, а качество Mamba-3B не уступает трансформерам вдвое большего размера.