В новой статье AI исследователи КМУ и Google переопределяют выводы языковой модели как задержка ответов с помощью паузовых маркеров улучшает производительность в вопросно-ответных и рассуждениях задачах.
Оптимизация ответов языковой модели с помощью паузовых маркеров новое исследование AI от КМУ и Google
Токены генерируются друг за другом с использованием моделей языковых моделей, основанных на трансформерах. Модель принимает K предыдущих токенов и затем итеративно вычисляет K промежуточных векторов на каждом скрытом слое для создания (K + 1)-го токена. Модуль работает с векторами вывода предыдущего слоя, и каждый вектор сам по себе является результатом работы модуля. Несмотря на сложность всей процедуры, должно соблюдаться одно необычное ограничение: количество операций, необходимых для определения следующего токена, ограничено числом уже просмотренных токенов.
Недавнее исследование Карнеги-Меллонского университета и Google изучало стратегию добавления фиктивных токенов входа только в модель-декодер для отложения ее вывода. В этой работе они решили выбрать (обучаемый) паузовый токен и добавить его входу в последовательность один или несколько раз. Чтобы получить ответ модели после просмотра последнего токена, они просто игнорируют соответствующий вывод до тех пор.
Важно, что исследователи задумываются о вставке таких задержек при выводе и во время дальнейшего тонкой настройки и предварительного обучения. Какое влияние может оказать этот кажущийся небольшой подход в реальном мире, пока неизвестно. Задержка создает потенциально “широкий” вычислительный канал, которым может воспользоваться трансформатор в своих интересах. Более простой результат может заключаться в том, что модель игнорирует способность токенов вызывать задержки и продолжает работу. В конце концов, ни сами токены, ни небольшое количество новых параметров, вводимых с включением одного токена, не могут закодировать дополнительную информацию из обучающих данных. Эти бесполезные токены могут затемнять полезные сигналы и ослаблять модель.
- Исследователи из университета Нортвестерн разработали Первую Систему Искусственного Интеллекта (ИИ), которая может Интеллектуально Проектировать Роботов С Нуля
- Исследователи из Стэнфордского университета предлагают MAPTree байесовский подход к построению деревьев решений с повышенной устойчивостью и производительностью.
- Исследователи из ИТУ Дании представляют нейроразвивающие программы сокращение разрыва между биологическим ростом и искусственными нейронными сетями.
Команда провела эмпирическую оценку, чтобы понять результаты введения (добавленных) задержек на всех этапах обучения и вывода. Они изучили обучение с паузой на модели только для декодирования с 1 миллиардом и 130 миллионами параметров, сначала обученной на C4 (Раффел и др., 2019), а затем тонко настроенной на девять задач в области извлечения ответов на вопросы, рассуждений, общего понимания и запоминания фактов. Самое значительное в этом методе – повышение точности точного совпадения модели с 1 миллиардом параметров на задаче извлечения ответов на вопросы SQuAD на 18%. Аналогично они наблюдали повышение точности на 8% при общем понимании задачи CommonSense QA и прирост точности на 1% на задаче рассуждения GSM8k по сравнению с точностью стандартной модели в 7,5%.
С другой стороны, когда токены вводятся только во время финальной тонкой настройки (используя базовую предварительно обученную модель), улучшения наблюдаются только в небольшой доле случаев. Команда также провела ряд ключевых абляций, включая:
- Установление того, что добавление токенов передний добавлением их.
- Установление оптимального числа токенов для любой последующей задачи.
- Установление того, что уменьшение числа токенов во время вывода приводит к плавному снижению производительности.
Команда считает, что следующим важным шагом будет разработка способов прямого использования задержек при нормальной предварительной обученной модели. Они предвидят возникновение нескольких новых теоретических и прикладных исследовательских направлений благодаря своей работе, расширяющей парадигму отсроченного прогнозирования следующего токена.