Исследователи из UC Berkeley предлагают RingAttention подход искусственного интеллекта, эффективного с точки зрения памяти, для снижения требований к памяти для трансформеров.

Ученые из UC Berkeley предлагают инновационный подход AI - RingAttention для повышения эффективности памяти в трансформерах

“`html

Тип архитектуры глубокого обучения называется Трансформер в контексте многих передовых моделей искусственного интеллекта. Они революционизировали область искусственного интеллекта, особенно в обработке естественного языка и других задачах машинного обучения. Они основаны на механизме само-внимания, где модель оценивает важность разных частей входной последовательности при прогнозировании. Они состоят из кодировщика и декодера для обработки входных данных.

Однако увеличение размера контекста Трансформеров требует много работы. Это связано с наследственным само-вниманием. Само-внимание имеет квадратическую стоимость памяти относительно длины входной последовательности, что затрудняет масштабирование для более длинных входных последовательностей. Исследователи из UC Беркли разработали метод, называемый Ring Attention, чтобы справиться с этим на основе простого наблюдения. Они обнаружили, что когда само-внимание и вычисления сетей прямой связи выполняются блочно, последовательности могут быть распределены по нескольким устройствам и легко анализироваться.

Они распределяют внешний цикл блочного внимания между узлами, каждое устройство управляет своим соответствующим блоком входа. Для внутреннего цикла они вычисляют блочное внимание и операции прямой связи, специфичные для каждого выделенного блока ввода для всех устройств. Их узловые устройства образуют концептуальное кольцо и отправляют копию своих блоков ключей-значений, используемых для блочных вычислений, следующему устройству в кольце. Они также одновременно получают блоки ключей-значений от предыдущего.

Вычисления блоков занимают больше времени, чем передача блоков. Команда перекрывает эти процессы, что не добавляет никаких накладных расходов по сравнению со стандартными Трансформерами. Таким образом, каждое устройство требует память, пропорциональную размеру блока, независимо от исходной длины входной последовательности. Это эффективно позволяет преодолеть ограничения памяти, накладываемые отдельными устройствами.

Их эксперименты показывают, что Ring Attention может сократить требования к памяти Трансформеров, позволяя им обрабатывать последовательности длиной более 500 раз длиннее, чем предыдущие эффективные по памяти состояния искусственного интеллекта. Этот метод также позволяет тренировать последовательности длиной более 100 миллионов без приближений к вниманию. Так как Ring Attention устраняет ограничения памяти, налагаемые отдельными устройствами, можно достичь практически бесконечных размеров контекста. Однако для этого потребуется большое количество устройств, так как длина последовательности пропорциональна количеству устройств.

Исследование затрагивает только оценку эффективности метода без моделей масштабированного тренировки. Так как размер контекста зависит от количества устройств, эффективность модели зависит от оптимизации; они работали только над низкоуровневыми операциями, необходимыми для достижения оптимальной производительности компьютера. Исследователи говорят, что хотели бы работать как над максимальной длиной последовательности, так и над оптимальной производительностью компьютера в будущем. Возможность практически безграничного контекста открывает много интересных возможностей, таких как модели больших видео-аудио-языка, изучение на основе длительной обратной связи и метода проб и ошибок, понимание и генерация кодовой базы и адаптация моделей искусственного интеллекта для понимания научных данных, таких как генетические последовательности.

“`