Как трансформеры могут обрабатывать более длинные входные данные? Исследователи из университета CMU и Google представляют новый подход (FIRE) функциональную интерполяцию для кодирования относительных позиций.

Новый подход от исследователей из университета CMU и Google использование функциональной интерполяции (FIRE) для более длинных входных данных в трансформерах

Модели на основе трансформаторов в последние годы значительно улучшили работу в области обработки естественного языка (NLP). Их способность понимать и производить текст, похожий на человеческий, привела к прорывным улучшениям во многих задачах NLP. Однако у этих моделей есть серьезный недостаток: их производительность обычно заметно снижается при работе с последовательностями, длиннее, чем те, с которыми они сталкиваются во время обучения. Необходимость нахождения способов увеличения их способности работать с более длинными контекстами в реальных приложениях стала основой для развития этого ограничения.

Хотя сама архитектура Transformer теоретически способна обрабатывать разные длительности входов, эффективность модели при работе с более длинными входами может быть ограничена применяемой при обучении методикой кодирования позиции. Чтобы решить эти проблемы, исследовательская группа из Карнеги-Меллонского университета, Google Research и Google DeepMind предложила уникальный подход, названный Functional Interpolation for Relative Positional Encoding (FIRE). Цель FIRE – повысить способность моделей Transformer унифицировать длинные контексты. Это стало возможным благодаря новому методу – постепенной интерполяции с функциональным относительным кодированием позиции.

Основная идея FIRE – предоставить моделям Transformer более гибкий способ понимания размещения токенов в последовательности. FIRE предлагает динамический и обучаемый механизм кодирования информации о позиции вместо заранее определенной схемы кодирования позиции. Эта стратегия важна, потому что она позволяет модели изменить свое понимание местоположения в ответ на конкретный контекст и длину последовательности, с которой она сталкивается.

Одним из основных преимуществ FIRE является его способность концептуально описывать некоторые широко используемые техники кодирования относительной позиции, такие как Kerple, Alibi и относительное позиционирование T5 (RPE). Это говорит о том, что FIRE сохраняет совместимость с существующими методами и моделями, обеспечивая при этом улучшенную производительность.

Было проведено несколько экспериментов для оценки работы моделей, оснащенных FIRE, в ситуациях, где важно понимание продленного контекста. Эта оценка охватывает ряд показателей, таких как языковое моделирование с нулевой адаптацией и проблемы с длинным текстовым вводом. Улучшенные модели, использующие этот новый метод, показали более высокую производительность в плане обобщения при работе с более длинными контекстами. Это означает, что люди более способны понимать и производить осмысленный текст при работе с более длинными последовательностями – навык, крайне полезный в практических ситуациях.

Основные результаты исследования можно свести к следующему.

  1. Была предложена новая методика функционального относительного кодирования позиций под названием FIRE. FIRE может представлять популярные методы кодирования позиции, такие как Alibi, Kerple и относительное позиционирование T5 (RPE), объединяя их.
  1. FIRE опережает существующие техники в сценариях нулевой адаптации и различных сценариях на различных наборах данных и бенчмарках, демонстрируя высокую производительность в отношении обобщения на большую длину. Он превосходит лучший базовый уровень на 2,28 пункта перплексии в задаче языкового моделирования C4, демонстрируя свою полезность. Он превосходит другие техники в среднем на более чем 1 пункт в тесте SCROLLS с длинным текстом.
  1. Гибкость FIRE для различных задач увеличивается за счет его способности улавливать как локальные, так и анти-локальные позиционные предубеждения, что демонстрируют визуализации изученных эмбеддингов позиций.

В заключение, FIRE предлагает отличное решение для стойкой проблемы с моделями Transformer. Относительное кодирование позиций представлено в гибком и обучаемом виде, позволяя этим моделям продолжать работать с высокой производительностью даже при работе с последовательностями ранее неизвестной длины.