ReLU против Softmax в Vision Transformers имеет ли значение длина последовательности? Инсайты из исследовательской работы Google DeepMind

ReLU vs Softmax in Vision Transformers Does sequence length matter? Insights from Google DeepMind research

Одной из распространенных архитектур машинного обучения сегодня является трансформерная архитектура. Одной из основных частей трансформера, вниманию, присуща функция softmax, которая генерирует распределение вероятностей по токенам. Параллелизация затруднена с использованием softmax, поскольку она является затратной из-за вычисления экспоненты и суммирования по длине последовательности. В данном исследовании исследуются альтернативы точечного softmax, которые не всегда предоставляют распределение вероятностей. Одно из выдающихся открытий заключается в том, что для визуальных трансформеров масштабное поведение внимания с разделением ReLU по длине последовательности может приблизиться к классическому softmax-вниманию или сравняться с ним.

Это открытие открывает новые возможности для параллелизации, поскольку ReLU-внимание параллельно проще, чем стандартное внимание вдоль размерности длины последовательности. В предыдущих исследованиях ReLU или квадратичная ReLU рассматривались как возможные замены softmax. Однако эти методы не разделяют по длине последовательности, что исследователи из Google DeepMind считают важным для достижения точности, сравнимой с softmax. Кроме того, ранее проводились исследования, которые рассматривали роль softmax, хотя по-прежнему требуется нормализация по оси длины последовательности, чтобы гарантировать, что веса внимания суммируются до единицы. С этим связаны недостатки требования сбора. Кроме того, существует множество исследований, которые устраняют функции активации, чтобы сделать внимание линейным, что является преимуществом для длительных промежутков времени последовательности.

В их исследованиях точность была снижена при полном удалении активации. Их тесты используют настройки обучения ImageNet-21k и ImageNet-1k из источника BigVision без изменения гиперпараметров. Они обучаются в течение 30 эпох в своих экспериментах на ImageNet-21k и 300 эпох в своих испытаниях на ImageNet-1k. В результате оба обучающих запуска занимают около 9е5 шагов, что является схожим количеством. Поскольку ранее было установлено, что это необходимо для предотвращения нестабильности при масштабировании размера модели, они используют ViTs с нормой слоя qk. Они приходят к выводу, что это не является ключевым элементом на их масштабах.

Они сообщают о точности ImageNet-1k для моделей ImageNet-21k, взяв лучший класс среди тех, что есть в ImageNet-1k, без донастройки. Они используют термины i21k и i1k для обозначения ImageNet-21k и ImageNet-1k соответственно. Они используют линейный зонд с 10-кратным запуском, усредненным по трем сидам, для оценки передачи производительности на последующие задачи. Это задачи Caltech Birds, Caltech101, Stanford Cars, CIFAR-100, DTD, ColHsit, Pets и UC Merced. Это исследование поднимает множество нерешенных вопросов. Они должны выяснить, почему фактор L^(-1) повышает производительность или можно ли выучить эту концепцию. Кроме того, может существовать более эффективная функция активации, которую они не исследуют.