Google AI представляет AltUp (Alternating Updates) метод искусственного интеллекта, который использует возрастающий масштаб в трансформерных сетях, не увеличивая вычислительные затраты.

AltUp (Alternating Updates) новый метод искусственного интеллекта от Google AI с использованием возрастающего масштаба в трансформерных сетях без увеличения вычислительных затрат.

В глубоком обучении нейронные сети Transformer привлекли значительное внимание своей эффективностью в различных областях, особенно в обработке естественного языка и новых приложениях, таких как компьютерное зрение, робототехника и автономное вождение. Однако, при улучшении производительности, увеличение масштаба этих моделей приводит к значительному росту вычислительных затрат и задержек вывода. Основной вызов заключается в том, чтобы использовать преимущества более крупных моделей, не попадая под непрактическую вычислительную нагрузку.

Текущая ситуация в глубоком обучении нейронных сетей, особенно Transformer, демонстрирует значительный прогресс в различных областях. Тем не менее, масштабируемость этих моделей часто требует улучшения из-за возрастающих вычислительных требований. Предшествующие усилия, представленные спарсированными моделями смеси экспертов, такими как Switch Transformer, Expert Choice и V-MoE, в основном сосредоточены на эффективном масштабировании параметров сети, снижая вычислительные затраты на вход. Однако существует пробел в исследованиях относительно масштабирования самого измерения токена. Метод AltUp был предложен для заполнения этого пробела.

AltUp выделяется своим способом увеличения представления токена без увеличения вычислительных затрат. Этот метод изобретательно разделяет расширенный вектор представления на равные блоки, обрабатывая только один блок на каждом слое. Суть эффективности AltUp заключается в его механизме предсказания-коррекции, позволяющем выводить значения для непереработанных блоков. За счет сохранения размерности модели и обхода квадратичного роста вычисления, связанного с прямым расширением, AltUp представляет собой многообещающее решение для вычислительных проблем, связанных с более крупными сетями Transformer.

Механика AltUp углубляется в тонкости вложения токенов и способа их расширения без увеличения вычислительной сложности. Метод включает:

  • Активацию трансформаторного слоя ширины 1x для одного из блоков.
  • Термин “активированный” блок.
  • Одновременное использование легковесного предиктора.

Этот предиктор вычисляет взвешенную комбинацию всех входных блоков, и предсказанные значения, вместе с вычисленным значением активированного блока, корректируются с помощью легковесного корректора. Механизм коррекции позволяет обновлять неактивированные блоки на основе активированных блоков. Важно отметить, что как предсказание, так и этап коррекции включают в себя минимальное число векторных сложений и умножений, значительно быстрее, чем в обычном трансформаторном слое.

Оценка AltUp на моделях T5 по языковым задачам демонстрирует его последовательную способность превосходить плотные модели с той же точностью. Особенно стоит отметить, что модель T5 Large, дополненная AltUp, достигает значительного ускорения на 27%, 39%, 87% и 29% на бенчмарках GLUE, SuperGLUE, SQuAD и Trivia-QA соответственно. Относительное улучшение производительности AltUp становится более заметным при применении к более крупным моделям, что подчеркивает его масштабируемость и улучшенную эффективность с увеличением размера модели.

В заключение, AltUp является заметным решением для долговременной задачи эффективного масштабирования нейронных сетей Transformer. Его способность увеличивать представление токена без пропорционального увеличения вычислительных затрат обещает значительные возможности для различных приложений. Инновационный подход AltUp, характеризующийся его разделением и механизмом предсказания-коррекции, предлагает прагматичный способ использования преимуществ более крупных моделей без попадания под непрактические вычислительные требования.

Расширение исследователей AltUp, известное как Recycled-AltUp, дополнительно демонстрирует приспособляемость предложенного метода. Recycled-AltUp, путем репликации встроенных представлений вместо расширения начальных встроенных представлений, демонстрирует строгое улучшение производительности предварительного обучения без введения замедления, заметного для человека. Этот двухканальный подход, в сочетании с безпроблемной интеграцией AltUp с другими техниками, такими как MoE, является примером его универсальности и открывает пути для будущих исследований в изучении динамики обучения и производительности модели.

AltUp олицетворяет прорыв в стремлении к эффективному масштабированию сетей Трансформера, предлагая убедительное решение компромисса между размером модели и вычислительной эффективностью. Как описано в этой статье, вклад исследовательской команды является значительным шагом к сделать модели Трансформера крупномасштабными более доступными и практичными для множества приложений.