В новой статье AI исследователи КМУ и Google переопределяют выводы языковой модели как задержка ответов с помощью паузовых маркеров улучшает производительность в вопросно-ответных и рассуждениях задачах.

Оптимизация ответов языковой модели с помощью паузовых маркеров новое исследование AI от КМУ и Google

Токены генерируются друг за другом с использованием моделей языковых моделей, основанных на трансформерах. Модель принимает K предыдущих токенов и затем итеративно вычисляет K промежуточных векторов на каждом скрытом слое для создания (K + 1)-го токена. Модуль работает с векторами вывода предыдущего слоя, и каждый вектор сам по себе является результатом работы модуля. Несмотря на сложность всей процедуры, должно соблюдаться одно необычное ограничение: количество операций, необходимых для определения следующего токена, ограничено числом уже просмотренных токенов.

Недавнее исследование Карнеги-Меллонского университета и Google изучало стратегию добавления фиктивных токенов входа только в модель-декодер для отложения ее вывода. В этой работе они решили выбрать (обучаемый) паузовый токен и добавить его входу в последовательность один или несколько раз. Чтобы получить ответ модели после просмотра последнего токена, они просто игнорируют соответствующий вывод до тех пор.

Важно, что исследователи задумываются о вставке таких задержек при выводе и во время дальнейшего тонкой настройки и предварительного обучения. Какое влияние может оказать этот кажущийся небольшой подход в реальном мире, пока неизвестно. Задержка создает потенциально “широкий” вычислительный канал, которым может воспользоваться трансформатор в своих интересах. Более простой результат может заключаться в том, что модель игнорирует способность токенов вызывать задержки и продолжает работу. В конце концов, ни сами токены, ни небольшое количество новых параметров, вводимых с включением одного токена, не могут закодировать дополнительную информацию из обучающих данных. Эти бесполезные токены могут затемнять полезные сигналы и ослаблять модель.

Команда провела эмпирическую оценку, чтобы понять результаты введения (добавленных) задержек на всех этапах обучения и вывода. Они изучили обучение с паузой на модели только для декодирования с 1 миллиардом и 130 миллионами параметров, сначала обученной на C4 (Раффел и др., 2019), а затем тонко настроенной на девять задач в области извлечения ответов на вопросы, рассуждений, общего понимания и запоминания фактов. Самое значительное в этом методе – повышение точности точного совпадения модели с 1 миллиардом параметров на задаче извлечения ответов на вопросы SQuAD на 18%. Аналогично они наблюдали повышение точности на 8% при общем понимании задачи CommonSense QA и прирост точности на 1% на задаче рассуждения GSM8k по сравнению с точностью стандартной модели в 7,5%.

С другой стороны, когда токены вводятся только во время финальной тонкой настройки (используя базовую предварительно обученную модель), улучшения наблюдаются только в небольшой доле случаев. Команда также провела ряд ключевых абляций, включая:

  1. Установление того, что добавление токенов передний добавлением их.
  2. Установление оптимального числа токенов для любой последующей задачи.
  3. Установление того, что уменьшение числа токенов во время вывода приводит к плавному снижению производительности.

Команда считает, что следующим важным шагом будет разработка способов прямого использования задержек при нормальной предварительной обученной модели. Они предвидят возникновение нескольких новых теоретических и прикладных исследовательских направлений благодаря своей работе, расширяющей парадигму отсроченного прогнозирования следующего токена.