Ученые Йоханнеса Кеплера университета представляют GateLoop продвижение моделирования последовательности с линейной рекуррентностью и управляемыми данными о состоянии.

Ученые Кеплеровского университета представляют GateLoop новое продвижение моделирования последовательности с линейной рекуррентностью и управляемыми данными о состоянии.

Исследователь из Университета Иоганна Кеплера представил GateLoop – новую модель последовательности, которая использует потенциал линейной рекуррентности для эффективного моделирования длинных последовательностей. Она обобщает линейные рекуррентные модели и опережает их в авторегрессионном языковом моделировании. GateLoop предлагает экономичный рекуррентный режим и эффективные параллельные режимы, одновременно вводя замещающий режим внимания, который имеет значение для архитектур Transformer. Она обеспечивает контролируемую данными относительно-позиционную информацию для внимания, акцентируя важность контролируемого данными накопления произведений для более надежных моделей последовательностей, превосходящих традиционные суммы кумулятивных значений, используемые в существующих моделях.

GateLoop – универсальная модель последовательности, расширяющая возможности линейных рекуррентных моделей, таких как S4, S5, LRU и RetNet, с использованием контролируемых данными переходов состояния. GateLoop превосходит другие модели в авторегрессионном языковом моделировании, предлагая как экономичный рекуррентный, так и высокоэффективные параллельные режимы. Она вводит замещающий режим внимания с влиянием на архитектуры Transformer. В исследовании рассматриваются ключевые аспекты, такие как предварительное вычисление кумулятивных произведений префиксов, ассоциативность оператора и неконтролируемая параметризация. GateLoop получает экспериментальное подтверждение с более низким показателем неопределенности на наборе данных WikiText103. Показано, что существующие модели недостаточно используют потенциал линейной рекуррентности, который GateLoop решает с помощью контролируемых данными переходов и сложных накоплений произведений.

Последовательности с дальнодействующими зависимостями представляют вызовы в машинном обучении, которые традиционно решаются с помощью рекуррентных нейронных сетей (RNN). Однако RNN сталкиваются с исчезающими и взрывными градиентами, затрудняя их стабильность для длинных последовательностей. Гейтинговые варианты, такие как LSTM и GRU, устраняют эти проблемы, но должны быть более эффективными. Transformer внес внимательные механизмы для глобальных зависимостей, устраняя рекуррентность. Хотя они обеспечивают эффективное параллельное обучение и глобальные парные зависимости, их квадратичная сложность ограничивает использование с длинными последовательностями. Линейные рекуррентные модели (LRM) предлагают альтернативу, где GateLoop является основополагающей моделью последовательности, обобщающей LRM за счет контролируемых данными переходов состояния, превосходящей другие модели в авторегрессионном языковом моделировании и предоставляющей универсальные режимы операции.

GateLoop предлагает эффективный рекуррентный режим O(l), оптимизированный параллельный режим O(llog2l) и замещающий режим внимания O(l2), предоставляя контролируемую данными относительно-позиционную информацию для внимания. Эксперименты на бенчмарке WikiText-103 демонстрируют успехи GateLoop в моделировании естественных языков с авторегрессией. Синтетическая задача подтверждает эмпирическое преимущество контролируемых данными переходов состояния перед неконтролируемыми. Ключевыми аспектами являются предварительное вычисление кумулятивных произведений префиксов и неконтролируемая параметризация для предотвращения расширения переменных.

GateLoop, модель последовательности, которая включает контролируемые данными переходы состояния, превосходит другие модели в авторегрессионном языковом моделировании, как это демонстрируется в экспериментах на бенчмарке WikiText-103. Она достигает более низкой неопределенности в тестировании по сравнению с другими моделями, подчеркивая практическую пользу контролируемых переходов состояния в моделировании последовательностей. Возможность GateLoop забывать память, зависящую от входных данных, позволяет ей эффективно управлять скрытым состоянием и отбирать актуальную информацию. Исследование выделяет будущие возможности исследования, включая изучение стратегий инициализации, активаций амплитуды и фазы, а также интерпретируемости изученных переходов состояния для более глубокого понимания модели.

GateLoop, полностью контролируемая линейная RNN, расширяет существующие линейные рекуррентные модели путем контролируемого закрытия входов, выходов и переходов состояния. Она превосходит другие модели в авторегрессионном языковом моделировании. Механизм GateLoop обеспечивает относительную позиционную информацию для внимания и может быть переформулирован в эквивалентный замещающий режим внимания с квадратичной сложностью O(l2). Результаты экспериментов подтверждают эффективность полностью контролируемой линейной рекуррентности в авторегрессионном языковом моделировании. Модель может забывать память, зависящую от входных данных, освобождая место для соответствующей информации. Варианты будущих исследований включают изучение различных стратегий инициализации, активаций амплитуды и фазы, а также повышение понятности изученных переходов состояния.