Исследователи из Шанхайской лаборатории искусственного интеллекта и Массачусетского технологического института представляют иерархическую воротную рекуррентную нейронную сеть RNN новую границу в эффективном моделировании долгосрочной зависимости.

Иерархическая воротная рекуррентная нейронная сеть RNN новая эффективная модель для моделирования долгосрочной зависимости, представленная исследователями из Шанхайской лаборатории искусственного интеллекта и Массачусетского технологического института.

Техника иерархической взвешенной рекуррентной нейронной сети (HGRN), разработанная исследователями из Шанхайской лаборатории искусственного интеллекта и MIT CSAI, решает проблему расширения моделирования последовательностей путем включения забывающих вентилей в линейные рекуррентные нейронные сети. Цель заключается в том, чтобы позволить верхним слоям захватывать долгосрочные зависимости, а нижним слоям фокусироваться на краткосрочных зависимостях, особенно в работе с очень длинными последовательностями.

Исследование исследует доминирование моделей-трансформеров в моделировании последовательностей из-за параллельного обучения и возможностей долгосрочной зависимости, но отмечает возобновленный интерес к эффективному моделированию последовательностей с использованием линейных рекуррентных нейронных сетей, подчеркивая важность забывающих вентилей. Исследуются линейная рекурренция и долговременная альтернатива модулям само-внимания для длинных последовательностей, выделяются проблемы в работе с длинными свертками. Также обсуждаются ограничения рекуррентных нейронных сетей в моделировании долгосрочных зависимостей и использовании вентильных механизмов.

Моделирование последовательностей критически важно в различных сферах, таких как обработка естественного языка, анализ временных рядов, компьютерное зрение и обработка аудио. Перед появлением моделей-трансформеров широко использовались рекуррентные нейронные сети, но они сталкивались с проблемами медленного обучения и моделирования долгосрочных зависимостей. Трансформеры превосходят в параллельном обучении, но имеют квадратичную временную сложность для длинных последовательностей.

Исследование представляет модель HGRN для эффективного моделирования последовательностей, состоящую из слоев со смешивающими модулями токенов и каналов. Забывающие вентили внутри слоя линейной рекурренции обеспечивают моделирование долгосрочных зависимостей в верхних слоях и локальных зависимостей в нижних слоях. Модуль смешивания токенов включает в себя вентили вывода и проекции, вдохновленные моделями пространства состояний. Механизмы вентиляции и динамические скорости затухания решают проблему исчезающих градиентов. Оценка в области моделирования языка, классификации изображений и длинных бенчмарков подтверждает эффективность и эффективность HGRN.

Предложенная модель HGRN превосходит эффективные варианты обычного трансформера, основанные на MLP и RNN, в языковых задачах, продемонстрировав производительность, сравнимую с исходным трансформером. В задачах, таких как понимание здравого смысла и Super GLUE, она соответствует моделям, основанным на трансформерах, используя меньшее количество токенов. HGRN показывает конкурентоспособные результаты в обработке долгосрочных зависимостей в бенчмарке Long Range Arena. В задаче классификации изображений ImageNet-1K HGRN превосходит предыдущие методы, такие как TNN и обычный трансформер.

В заключение, модель HGRN доказала свою высокую эффективность в различных задачах и модальностях, включая моделирование языка, классификацию изображений и длинные бенчмарки. Использование вентилей забывания и нижней границы для их значений позволяет эффективно моделировать долгосрочные зависимости. HGRN превосходит варианты обычного трансформера, основанные на MLP и RNN, в языковых задачах и демонстрирует превосходную производительность при классификации изображений ImageNet-1K по сравнению с методами, такими как TNN и обычный трансформер.

В будущем для модели HGRN планируется обширное исследование в различных областях и задачах для оценки ее универсальности и эффективности. Исследование влияния различных гиперпараметров и архитектурных вариаций направлено на оптимизацию дизайна модели. Оценка дополнительных наборов данных и их сравнение с самыми современными моделями будет дополнительно подтверждать их производительность. Будут исследованы потенциальные улучшения, такие как внедрение внимания или других механизмов вентиляции, для улучшения захвата долгосрочных зависимостей. Будет проведен анализ масштабируемости для еще более длинных последовательностей и изучены преимущества параллельной реализации. Дальнейший анализ интерпретируемости и объяснимости направлен на получение инсайтов в процесс принятия решений и повышение прозрачности.