Можно ли упростить блоки трансформатора, не ущемляя эффективность? Эта научная статья ИИ от Этского университета исследует баланс между сложностью конструкции и производительностью.

Как упростить конструкцию блоков трансформатора, не снижая их эффективность? Научная статья ИИ от Этского университета исследует взаимосвязь между сложностью конструкции и производительностью.

Исследователи из ETH Цюрих исследуют упрощения в конструкции глубоких трансформеров, стремясь сделать их более надёжными и эффективными. В предложенных модификациях совмещаются теория передачи сигнала и эмпирические наблюдения, позволяющие убрать различные компоненты из стандартных блоков трансформера, не затрагивая скорость обучения и производительность.

Исследование представляет собой исследование упрощения блоков трансформера в глубоких нейронных сетях, с акцентом на стандартном блоке трансформера. Исходя из теории передачи сигнала, оно исследует архитектуру идентичных блоков, включающих в себя подблоки внимания и многослойный перцептрон (MLP) с сопряжениями и слоями нормализации. Также представлен параллельный блок, обеспечивающий параллельное выполнение подблоков MLP и внимания для повышенной эффективности.

Исследование рассматривает упрощение блоков трансформера в глубоких нейронных сетях, с акцентом на стандартном блоке трансформера. Исследуется необходимость различных компонентов в блоке и возможность их исключения без ущерба для скорости обучения. Побуждением к упрощению служит сложность архитектур современных нейронных сетей и разрыв между теорией и практикой в области глубокого обучения.

Для упрощения блоков трансформера предлагается комбинировать теорию передачи сигнала и эмпирические наблюдения для предложения модификаций. В ходе исследования были проведены эксперименты с моделями декодера только с авторегрессией и энкодера BERT для оценки производительности упрощенных трансформеров. Также были проведены дополнительные эксперименты и абляции для изучения влияния удаления сопряжений в подблоке внимания и деградации сигнала, которая может возникнуть в результате.

В ходе исследования были предложены модификации для упрощения блоков трансформера путём удаления сопряжений, параметров проекции/значений, последовательных подблоков и слоев нормализации. Эти модификации сохраняют скорость обучения и производительность стандартных трансформеров, одновременно улучшая пропускную способность обучения и использование параметров. Также в исследовании исследуется влияние различных методов инициализации на производительность упрощенных трансформеров.

Предложенные упрощенные трансформеры достигают сравнимой производительности с стандартными трансформерами при использовании на 15% меньшего количества параметров и с увеличением пропускной способности обучения на 15%. Исследование представляет упрощенные архитектуры глубокого обучения, способные сократить стоимость больших моделей трансформера. Экспериментальные результаты подтверждают эффективность упрощений в различных настройках и подчеркивают важность правильной инициализации для достижения оптимальных результатов.

Рекомендуется проведение дальнейших исследований для оценки эффективности предложенных упрощений на больших моделях трансформера, поскольку в исследовании в основном были использованы относительно маленькие модели по сравнению с самыми большими трансформерами. Также предлагается провести комплексный поиск гиперпараметров для улучшения производительности упрощенных блоков, поскольку в исследовании были подобраны только ключевые гиперпараметры и использованы значения по умолчанию. Предлагается изучить варианты аппаратной реализации упрощенных блоков, специфичных для аппаратного обеспечения, для достижения дополнительного улучшения скорости обучения и производительности.