Встречайте MatFormer универсальную вложенную архитектуру трансформера для гибкого развертывания моделей на различных платформах.

Знакомьтесь с MatFormer универсальная архитектура трансформера для гибкого распределения моделей на различных платформах.

Модели Transformer находят применение в различных областях, начиная от мощных многоаккумуляторных кластеров до отдельных мобильных устройств. Разнообразные требования, предъявляемые к выводу в этих средах, заставляют разработчиков тренировать фундаментальные модели, такие как PaLM 2, Llama и ViTs, в разных размерах. Однако высокие затраты на обучение приводят к ограниченному набору поддерживаемых размеров моделей.

Большие базовые модели используются в различных ситуациях, таких как быстрые ответы на мобильных телефонах или обработка пакетов на многоагрегатных графических процессорах для веб-приложений масштаба. Каждая модель предоставляет набор независимо обученных моделей разных размеров, чтобы удовлетворить различным обстоятельствам. Для обеспечения широкого спектра применений эти размеры моделей обычно группируются на логарифмической шкале приблизительно линейным образом.

В результате группа исследователей из Google Research, Университета штата Техас в Остине, Университета Вашингтона и Гарвардского университета представила MatFormer – архитектуру Transformer, специально созданную для адаптивности, как описано в их последней статье, названной MatFormer: вложенный Transformer для эластичного вывода. MatFormer упрощает создание интегрированной модели, способной генерировать множество меньших субмоделей без дополнительного обучения.

Они включили в стандартную архитектуру Transformer вложенную подструктуру и совместно оптимизировали все уровни, чтобы получить единую универсальную эластичную модель.

Исследователи отметили, что они создали множество точных субмоделей, не увеличивая затрат на дополнительное обучение, аккуратно смешивая различные уровни информации в разных слоях универсальной модели MatFormer. Каждый блок Feed Forward Network (FFN) в архитектуре MatFormer оптимизируется с помощью набора меньших вложенных блоков FFN. Через этот метод обучения они объединяют и настраивают сложность модели в разных слоях.

Вложенная структура реализуется на скрытых представлениях блока Feed Forward Network (FFN), усиливая возможности модели путем расположения внимательных головок по порядку значимости. Подструктура внутри внимательных головок создается от наиболее значимых до наименее значимых. В сравнении с независимым обучением эквивалентных субмоделей на основе Transformer, обучение ускоряется на 15%, поскольку более значимые головки распределены между большим числом субмоделей. Кроме того, этот метод соответствует кривой оптимизированной субмодели и позволяет извлекать несколько меньших субмоделей с сохранением точности.

Исследователи обнаружили, что они могут создавать значительное количество точных малых моделей без дополнительной оптимизации, выбирая разные уровни детализации для каждого слоя MatFormer.

Команда изучила эффективность на различных типах моделей (декодеры и энкодеры), модальностях (язык и видение) и масштабах (до 2,6 миллиардов параметров). Исследователи подчеркнули, что сравнение этих меньших моделей с их самостоятельно обученными аналогами показывает сопоставимую потерю валидации и однократную производительность внешних операций. Кроме того, MatFormer демонстрирует устойчивую обобщающую способность и хорошо работает как видеоэнкодеры (MatViT), так и модели только для декодера языка (MatLM). По точности и надежности он масштабируется также, как и традиционный Transformer.