«Гугл ИИ представляет AltUp»

«Google AI представляет AltUp»

Трансформерные нейронные сети стали центральной темой, проявляя замечательную эффективность в обработке естественного языка и новых областях применения, таких как компьютерное зрение, робототехника и автономное вождение. Однако увеличивающийся масштаб этих моделей представляет вызовы, в основном связанные с затратами на вычисления и задержкой вывода.

Возникает потребность в новаторских решениях для повышения масштабируемости без непрактичных нагрузок на вычисления. Вот где появляется метод Google AI под названием AltUp, разработанный для улучшения представления токенов без увеличения вычислительной сложности.

В то время как модели, такие как Switch Transformer, Expert Choice и V-MoE, сделали значительные успехи в эффективном масштабировании параметров сети, все же остался пробел в исследованиях, касающихся увеличения размерности представления токенов. И вот здесь AltUp выделяется.

Уникальность AltUp заключается в том, что он разделяет расширенное представление вектора на равные блоки и обрабатывает только один блок на каждом слое. Его эффективность состоит в механизме предсказания и коррекции, позволяющем выводить результаты для непроцессированных блоков.

Как говорится в блоге Google AI, сохраняя размеры модели и избегая квадратичного увеличения вычислений, AltUp становится многообещающим решением проблем, с которыми сталкиваются при работе с более крупными трансформерными сетями.

Механизм работы AltUp углубляется в детали векторных вложений токенов, демонстрируя, как их можно расширять, не вызывая роста вычислительной сложности. Метод включает 1x слой трансформера для одного блока, названного “активным” блоком, а также легковесный предиктор.

Этот предиктор вычисляет взвешенную комбинацию всех входных блоков, которая затем корректируется с помощью легковесного корректора, позволяя обновлять неактивированные блоки на основе активированных. Как предсказание, так и коррекция включают только минимальные векторные операции, что делает их значительно быстрее, чем обычные слои трансформера.

Оценка моделей T5 с использованием AltUp на проверочных задачах языков подтверждает их способность превосходить плотные модели с той же точностью. Модель T5 Large, дополненная AltUp, достигает заметного ускорения в 27%, 39%, 87% и 29% на проверочных бенчмарках GLUE, SuperGLUE, SQuAD и Trivia-QA соответственно.

Особенно стоит отметить, что относительное улучшение результатов AltUp становится более заметным с увеличением размеров моделей, что подчеркивает его масштабируемость и повышенную эффективность при увеличении размера модели. Дальнейшее развитие AltUp, известное как Recycled-AltUp, также показывает адаптивность предложенного метода.

Recycled-AltUp, используя воспроизведение вложений вместо расширения начальных вложений токенов, демонстрирует значительное улучшение результатов предварительного обучения без ощутимого замедления.

В целом, цель этой статьи и вклад команды исследователей значительно способствуют сделке трансформерных моделей большого масштаба более практичными и доступными для широкого круга задач.