Новое исследование по искусственному интеллекту от Apple и Equall AI раскрывает избыточности в архитектуре трансформера как оптимизация сети прямого распространения повышает эффективность и точность

Новое исследование от Apple и Equall AI показывает, что оптимизация сети прямого распространения повышает эффективность и точность трансформера в искусственном интеллекте.

Дизайн трансформатора, который недавно стал популярным, стал стандартным методом для обработки естественного языка (Natural Language Processing, NLP), особенно для машинного перевода (Machine Translation, MT). Эта архитектура проявляет впечатляющие масштабируемые качества, что означает, что добавление большего количества параметров модели приводит к лучшей производительности на различных задачах NLP. Это наблюдение было подтверждено рядом исследований и исследовательских работ. Хотя трансформаторы отличаются масштабируемостью, параллельно идет работа над тем, чтобы сделать эти модели более эффективными и применимыми в реальном мире. Это включает в себя решение проблем с задержкой, использованием памяти и дисковым пространством.

Исследователи активно исследуют методы решения этих проблем, включая обрезку компонентов, совместное использование параметров и снижение размерности. Широко используемая архитектура трансформатора включает ряд важных частей, из которых две самые важные – это Feed Forward Network (FFN) и Attention.

  1. Attention – Механизм Attention позволяет модели улавливать связи и зависимости между словами в предложении, независимо от их позиции. Он функционирует как механизм, помогающий модели определить, какие части входного текста наиболее важны для каждого анализируемого слова. Понимание контекста и связей между словами в фразе зависит от этого механизма.
  1. Feed Forward Network (FFN): FFN отвечает за нелинейное преобразование каждого входного токена независимо. Он добавляет сложность и выразительность в понимании модели каждого слова, выполняя определенные математические операции над представлением каждого слова.

В недавнем исследовании команда исследователей сосредоточилась на изучении роли FFN в архитектуре трансформатора. Они обнаружили, что FFN обладает высоким уровнем избыточности, являясь большой частью модели и потребляя значительное количество параметров. Они выяснили, что они могут сократить количество параметров модели, не существенно ухудшая точность. Они сделали это, удалив FFN из слоев декодера и вместо этого использовали один общий FFN для слоев энкодера.

  1. Слои декодера: У каждого энкодера и декодера в стандартной модели трансформатора есть свой собственный FFN. Исследователи удалили FFN из слоев декодера.
  1. Слои энкодера: Они использовали один общий FFN, который был разделен между всеми слоями энкодера, вместо того, чтобы иметь отдельные FFN для каждого слоя энкодера.

Исследователи поделились преимуществами этого подхода, которые заключаются в следующем.

  1. Снижение количества параметров: Они существенно уменьшили количество параметров в модели, удаляя и совместно используя компоненты FFN.
  1. Точность модели уменьшилась лишь незначительно, несмотря на удаление значительного количества ее параметров. Это показывает, что FFN в энкодере и FFN в декодере имеют некоторую степень функциональной избыточности.
  1. Восстановление: Они увеличили скрытое измерение общего FFN, чтобы вернуть архитектуру к предыдущему размеру, сохраняя или даже улучшая производительность модели. По сравнению с предыдущей крупномасштабной моделью трансформатора, это привело к значительному улучшению точности и скорости обработки модели, то есть задержке.

В заключение, эти исследования показывают, что Feed Forward Network в архитектуре трансформатора, особенно в слоях декодера, может быть упрощен и совместно использован, не существенно влияя на производительность модели. Это не только снижает вычислительную нагрузку модели, но и улучшает ее эффективность и применимость для различных приложений NLP.