Мамба Переопределение моделирования последовательности и превосходство перед архитектурой Трансформера

Мамба Трансформация моделирования последовательностей и превосходство над архитектурой Трансформера

В этой статье обзор на Mamba мы рассмотрим, как эту инновационную модель пространства состояний (SSM) революционизирует моделирование последовательностей. Разработанный Альбертом Гу и Три Дао, Mamba отличается своей эффективностью в обработке сложных последовательностей в областях, таких как обработка языка, геномика и аудиоанализ. Линейное моделирование последовательностей Mamba с выборочными пространствами состояний обеспечивает исключительную производительность в этих различных областях.

Мы погрузимся в способность Mamba преодолеть вычислительные проблемы, с которыми сталкиваются традиционные трансформеры, особенно с длинными последовательностями. Его выборочный подход в моделях пространства состояний позволяет для более быстрого вывода и линейного масштабирования с длиной последовательности, значительно повышая пропускную способность.

Уникальность Mamba заключается в его способности к быстрой обработке, выборческом слое SSM и дружественном к аппаратуре дизайне, вдохновленном FlashAttention. Эти возможности позволяют Mamba превзойти многие существующие модели, включая те, основанные на трансформерном подходе, делая его заметным прогрессом в обучении машин.

Трансформеры против Mamba

Трансформеры, такие как GPT-4, установили стандарты в обработке естественного языка. Однако их эффективность снижается с увеличением длины последовательностей. И здесь Mamba опережает, благодаря своей способности более эффективно обрабатывать длинные последовательности и уникальной архитектуре, которая упрощает весь процесс.

Трансформеры опытны в обработке последовательностей данных, таких как текст для языковых моделей. В отличие от предыдущих моделей, которые обрабатывали данные последовательно, трансформеры обрабатывают все последовательности одновременно, позволяя запечатлеть сложные взаимосвязи в данных.

Они используют механизм внимания, который позволяет модели сосредоточиться на разных частях последовательности при прогнозировании.

Это внимание вычисляется с использованием трех наборов весов: запросов, ключей и значений, полученных из входных данных. Каждый элемент последовательности сравнивается со всеми остальными элементами, предоставляя вес, который указывает на важность или “внимание”, которое каждый элемент должен получить при прогнозировании следующего элемента в последовательности.

У трансформеров есть два основных блока: энкодер, который обрабатывает входные данные, и декодер, который генерирует вывод. Каждый содержит несколько слоев, каждый из которых содержит два подслоя: механизм многоголового самовнимания и простую позиционно-зависимую полносвязную прямую нейронную сеть. Каждый подслои используют нормализацию и остаточные соединения для помощи в обучении глубоких сетей.

У декодера также есть слои с двумя-подслоями, аналогичными энкодеру, но добавляется третий подслои, который выполняет многоголовое внимание над выводом энкодера. Последовательный характер декодера гарантирует, что прогнозы для позиции могут учитывать только ранние позиции, сохраняя авторегрессивное свойство.

В отличие от трансформеров, модель Mamba идет другим путем. В то время как трансформеры справляются с проблемой длинных последовательностей, используя более сложные механизмы внимания, Mamba использует выборочные пространства состояний для обработки последовательностей. Такой подход решает проблемы вычислительной неэффективности трансформеров при работе с длинными последовательностями. Дизайн Mamba обеспечивает более быстрый вывод и линейное масштабирование с длиной последовательности, устанавливая новый парадигму для моделирования последовательностей, которая может быть более эффективной, особенно в условиях увеличения длины последовательностей.

Способность трансформера обрабатывать последовательности параллельно и его надежный механизм внимания делают его мощным инструментом для задач, таких как перевод и генерация текста.

В отличие от этого, модель Mamba работает иначе, используя выборочные пространства состояний для обработки последовательностей. Такой подход решает проблему вычислительной неэффективности трансформеров при работе с длинными последовательностями. Дизайн Mamba позволяет более быстрый вывод и линейное масштабирование с длиной последовательности, создавая новую парадигму для моделирования последовательностей, которая может быть более эффективной, особенно с увеличением длины последовательностей.

Мамба

То, что делает Мамбу по-настоящему уникальной, – это отказ от традиционного внимания и блоков MLP. Такое упрощение приводит к более легкой, быстрой модели, которая линейно масштабируется с длиной последовательности – достижение, ни с чем не сравнимое с предшественниками.

Основные особенности Мамбы включают:

  1. Selective SSMs : Они позволяют Мамбе фильтровать нерелевантную информацию и сосредоточиться на релевантных данных, улучшая ее обработку последовательностей. Эта селективность важна для эффективного контентного рассуждения.
  2. Аппаратно осознаваемый алгоритм : Мамба использует параллельный алгоритм, оптимизированный для современного оборудования, особенно для графических процессоров. Этот дизайн обеспечивает более быстрые вычисления и снижает требования к памяти по сравнению с традиционными моделями.
  3. Упрощенная архитектура : Путем интеграции селективных SSM и устранения блоков внимания и MLP Мамба предлагает более простую, более однородную структуру. Это приводит к лучшей масштабируемости и производительности.

Мамба продемонстрировала превосходную производительность в различных областях, включая язык, аудио и геномику, преуспевая как в предварительном обучении, так и в областно-специфических задачах. Например, при языковом моделировании Мамба соответствует или превосходит производительность более крупных моделей-трансформеров.

Код и предварительно обученные модели Мамбы открыты для использования сообществом на GitHub .

Стандартные задачи копирования просты для линейных моделей. Выборочное копирование и индукционные головы требуют динамической, осведомленной о содержимом памяти для LLMs.

Обычные задачи копирования просты для линейных моделей. Выборочное копирование и индукционные головы требуют динамической, осведомленной о содержимом памяти для LLMs.

Модели пространства состояний со структурой (S4) недавно стали перспективным классом моделей последовательностей, объединяющих черты RNN, CNN и классических моделей пространства состояний. Модели S4 черпают вдохновение из непрерывных систем, в частности из типа системы, который отображает одномерные функции или последовательности через неявное скрытое состояние. В контексте глубокого обучения они представляют значительное новаторство, предоставляя новую методологию проектирования последовательностей, которые эффективны и высокоадаптивны.

Динамика моделей S4

SSM (S4) —это основная модель структурированного пространства состояний. Она принимает последовательность x и производит выход y с использованием изученных параметров A , B , C и параметра задержки Δ . Переход включает дискретизацию параметров (превращение непрерывных функций в дискретные) и применение операции SSM, которая инвариантна относительно времени, то есть не изменяется на разных временных шагах.

Значимость дискретизации

Дискретизация – это ключевой процесс, преобразующий непрерывные параметры в дискретные с помощью фиксированных формул, позволяющий моделям S4 сохранить связь с непрерывными системами. Это наделяет модели дополнительными свойствами, такими как инвариантность разрешения, и обеспечивает правильную нормализацию, улучшая стабильность и производительность модели. Дискретизация также находит параллели с механизмами гейтинга, используемыми в RNN, которые необходимы для управления потоком информации через сеть.

Линейная временная инвариантность (LTI)

Одной из основных особенностей моделей S4 является их линейная временная инвариантность. Это означает, что динамика модели остается постоянной со временем, а параметры фиксированы для всех временных шагов. LTI является основой для рекуррентных и сверточных операций, предлагая упрощенную, но мощную рамку для создания последовательностных моделей.

Преодоление основных ограничений

Концепция модели пространства состояний (S4) традиционно ограничивалась ее линейной временной инвариантностью, что создавало проблемы при моделировании данных, требующих адаптивной динамики. Недавнее исследование представляет подход, который преодолевает эти ограничения путем введения изменяющихся во времени параметров, тем самым устраняя ограничение LTI. Это позволяет моделям S4 обрабатывать более разнообразные наборы последовательностей и задач, существенно расширяя их применимость.

Термин “модель пространства состояний” широко охватывает любой рекуррентный процесс, включающий скрытое состояние, и использовался для описания различных концепций в различных областях знаний. В контексте глубокого обучения модели S4 или структурированные SSM относятся к конкретному классу моделей, которые были оптимизированы для эффективных вычислений, сохраняя при этом возможность моделировать сложные последовательности.

S4 модели могут быть интегрированы в архитектуры нейронных сетей с конца в конец, функционируя как автономные преобразования последовательностей. Их можно рассматривать как аналогичные сверточным слоям в CNN, обеспечивающие основу для моделирования последовательностей в различных архитектурах нейронных сетей.

SSM против SSM + Selection

SSM против SSM + Selection

Мотивация для выборочности в моделировании последовательностей

Structured SSMs

Структурированные SSM

Статья утверждает, что фундаментальным аспектом моделирования последовательностей является сжатие контекста в управляемое состояние. Модели, которые могут селективно фокусироваться на или фильтровать входы, предоставляют более эффективное средство поддержания этого сжатого состояния, что приводит к более эффективным и мощным моделям последовательностей. Эта выборочность необходима для моделей, чтобы адаптивно контролировать поток информации вдоль измерения последовательности, что является важной возможностью для решения сложных задач в моделировании языка и за его пределами.

Выборочные SSM улучшают традиционные SSM, позволяя их параметрам зависеть от входов, что вводит степень адаптивности, ранее недостижимую с помощью моделей, инвариантных к времени. Это приводит к изменяющимся во времени SSM, которые уже не могут использовать свертки для эффективных вычислений, а вместо этого полагаются на линейный механизм рекурренции, что является значительным отклонением от традиционных моделей.

SSM + Selection (S6) В этой вариации присутствует механизм выбора, добавляющий зависимость от входов к параметрам B и C, а также параметр задержки Δ. Это позволяет модели селективно фокусироваться на определенных частях входной последовательности x. Параметры дискретизируются с учетом выборочности, и операция SSM применяется с изменяющимся во времени способом с использованием операции сканирования, которая последовательно обрабатывает элементы, динамически изменяя фокус со временем.

Выдающиеся результаты Mamba

Mamba is best-in-class on every single evaluation result

Mamba является лучшим в своем классе по всем результатам оценки

В терминах производительности Mamba превосходит другие модели как по скорости вывода, так и точности. Его конструкция позволяет более эффективное использование длинных контекстов, что продемонстрировано как в моделировании ДНК, так и в аудио-моделировании, превосходя предыдущие модели в сложных задачах, требующих зависимостей на большие расстояния. Его универсальность также подчеркивается в оценках без примерения на нескольких задачах, устанавливая новую стандартную планку эффективности и масштабируемости для таких моделей.

Начало работы с Mamba

Для тех, кто заинтересован в использовании Mamba, технические требования включают в себя ОС Linux, видеокарту NVIDIA, PyTorch 1.12+ и CUDA 11.6+. Установка включает в себя простые команды pip для установки необходимых пакетов из репозитория Mamba. Если возникают проблемы с совместимостью версий PyTorch, использование флага -no-build-isolation с pip может помочь. Эти модели, обученные на обширных наборах данных, таких как Pile и SlimPajama, разработаны для удовлетворения различных вычислительных потребностей и производительностных показателей.

Mamba предлагает различные уровни интерфейсов, от выборочного слоя SSM до блока Mamba и полных структур языковых моделей. Блок Mamba, являющийся основным модулем архитектуры, использует причинный слой Conv1d и может быть легко интегрирован в проектирование нейронных сетей. Приведенный пример использования на языке Python демонстрирует создание модели Mamba и обработку данных через нее, подчеркивая простоту и гибкость системы.

Предобученные модели Mamba доступны на Hugging Face с размерами от 130M до 2.8B параметров, обученных на обширном наборе данных Pile и наборе данных SlimPajama. Эти модели разработаны для удовлетворения различных вычислительных и производительностных требований, соответствуя размерным стандартам GPT-3. Пользователи могут ожидать высокой производительности и точности от этих моделей, что делает Mamba конкурентоспособным выбором для различных приложений, включая, но не ограничиваясь моделированием языка.

Влияние Mamba

Mamba представляет собой значительный прогресс в моделировании последовательностей, предлагая мощную альтернативу архитектурам Transformer для обработки информационно насыщенных данных. Его дизайн соответствует требованиям современного оборудования, оптимизируя как использование памяти, так и возможности параллельной обработки. Доступность кодовой базы Mamba в открытом доступе и предварительно обученные модели делают его доступным и надежным инструментом для исследователей и разработчиков в области искусственного интеллекта и глубокого обучения.