Исследователи CMU обнаружили ключевые принципы поведения нейронных сетей взаимодействие тяжелохвостых данных и глубины сети в формировании динамики оптимизации

Открытие исследователей CMU ключевые принципы взаимодействия нейронных сетей, обработки больших объемов данных и глубинной оптимизации

На сегодняшний день существует все больше интересных свойств оптимизации нейронных сетей, которые не объясняются классическими методами оптимизации. Исследовательская команда имеет неоднозначное понимание механических причин каждого из этих свойств. Обширные усилия привели к возможным объяснениям эффективности методов Adam, Batch Normalization и других инструментов успешного обучения, но доказательства не всегда являются убедительными, и теоретическое понимание очень ограничено. Другие результаты, такие как грокинг или граница стабильности, не имеют непосредственных практических последствий, но предоставляют новые возможности для изучения, что отличает оптимизацию нейронных сетей. Обычно эти феномены рассматриваются в изоляции, хотя они не совсем отдельные; неизвестно, какие конкретные основные причины они могут иметь. Более глубокое понимание динамики обучения нейронных сетей в конкретном контексте может привести к улучшению алгоритма; это предполагает, что любое общее свойство будет ценным инструментом для дальнейшего исследования.

В данной работе исследовательская команда из Университета Карнеги-Меллона выявляет феномен в оптимизации нейронных сетей, который предлагает новое понимание многих предыдущих наблюдений и, как надеется исследовательская команда, позволит глубже понять, как они могут быть связаны. Хотя исследовательская команда не претендует на полное объяснение, она представляет крепкие качественные и количественные доказательства для одной высокоуровневой идеи, которая естественно сочетается с несколькими существующими рассказами и предлагает более связанную картину их происхождения. В частности, исследовательская команда демонстрирует преобладание сопряженных групп выбросов в естественных данных, которые значительно влияют на динамику оптимизации сети. Эти группы включают одну или несколько (относительно) большие характеристики, которые доминируют в выводе сети начиная с инициализации и на протяжении большей части обучения. В дополнение к их величине, другое характерное свойство этих характеристик заключается в том, что они обеспечивают большие, последовательные и противоположные градиенты, то есть следуя градиенту одной группы для уменьшения ее потерь, потери другой группы увеличиваются примерно на ту же величину. Из-за этой структуры исследовательская команда называет их Противоположными Сигналами. Эти характеристики имеют независимую корреляцию с целевой задачей, но часто не являются «правильным» (например, согласованным с человеком) сигналом.

Во многих случаях эти характеристики идеально охватывают классическую статистическую проблему «корреляции против причинности». Например, яркое синее небо не определяет метку изображения CIFAR, но оно чаще всего встречается на изображениях самолетов. Другие характеристики также являются значимыми, такие как наличие колес и фар на изображениях грузовиков и автомобилей или то, что двоеточие часто предшествует словам «the» или новой строке в письменном тексте. Рисунок 1 показывает функцию потерь обученной ResNet-18 с использованием градиентного спуска (GD) по полному пакету на CIFAR-10, а также несколько групп выбросов и соответствующих им потерь.

Рисунок 1: Выбросы с противоречивыми сигналами оказывают значительное влияние на динамику обучения нейронных сетей. Кроме того, потери небольшой, но типичной выборки групп выбросов представляют собой общую потерю обученной сети ResNet-18 с использованием GD на CIFAR-10. Эти группы последовательно отображают противоположные сигналы (например, колеса и фары могут указывать на грузовик или транспортное средство). Потери в этих группах осциллируют с увеличением и снижением амплитуды в процессе обучения; это соответствует спорадическим всплескам общей потери и, кажется, является корневой причиной явления границы стабильности.

На ранних этапах обучения сеть попадает в узкую долину в пространстве весов, которая тщательно балансирует противоположные градиенты пар; последующее усовершенствование ландшафта потерь приводит к осцилляции сети с возрастающей амплитудой вдоль определенных осей, нарушая этот баланс. Возвращаясь к примеру с небесным фоном, один шаг приводит к тому, что класс самолета получает большую вероятность для всех изображений с небом, а следующий шаг обратит этот эффект. По сути, подсеть “небо = самолет” увеличивается и уменьшается.1 Прямым результатом этой осцилляции является то, что потери сети на изображениях самолетов с небесным фоном будут чередоваться между резким увеличением и уменьшением с растущей амплитудой, с точностью до противоположного происходящего с изображениями не-самолетов с небесом. Следовательно, градиенты этих групп будут чередовать направления, при этом также увеличиваясь по величине. Поскольку эти пары представляют собой небольшую часть данных, такое поведение не является сразу очевидным из общих потерь обучения. Однако со временем оно достаточно продвигается, чтобы вызвать широкие всплески потерь.

Поскольку между этими двумя событиями существует очевидная прямая связь, исследовательская группа предполагает, что противоположные сигналы прямо вызывают явление грани стабильности. Они также отмечают, что наиболее влиятельные сигналы, кажется, увеличивают свою сложность со временем. Исследовательская группа повторила этот эксперимент в различных визионных архитектурах и гиперпараметрах обучения: хотя точные группы и их порядок появления меняются, наблюдается последовательность. Они также подтвердили это поведение для трансформаторов прогнозирования следующего токена естественного текста и небольших многослойных перцептронов на простых одномерных функциях. Однако они используют изображения для пояснения, потому что они предлагают наиболее ясное понимание. Большинство их экспериментов используют метод градиентного спуска для исключения этого эффекта, но они наблюдали аналогичные закономерности при использовании метода стохастического градиента (SGD) – сводка вкладов. Основной вклад этой работы заключается в демонстрации существования, повсеместности и большого влияния противоположных сигналов во время оптимизации нейронных сетей.

Исследовательская группа также представляет свое текущее лучшее понимание, с поддержкой экспериментов, того, как эти сигналы вызывают наблюдаемую динамику обучения. В частности, они предоставляют доказательства того, что это является последствием глубины и методов крутейшего спуска (steepest descent). Исследовательская группа дополняет это обсуждение игрушечным примером и анализом двухслойной линейной сети на простой модели. Заметно, что хотя они являются примитивными, их объяснение позволяет делать конкретные качественные предсказания поведения нейронных сетей во время обучения, которые исследовательская группа подтверждает экспериментально. Оно также предоставляет новую точку зрения для изучения современных методов стохастической оптимизации, что исследовательская группа подчеркивает на примере сравнения SGD и Adam. Исследовательская группа видит возможные связи между противоположными сигналами и различными явлениями оптимизации и обобщения нейронных сетей, включая понимание, гипертенизация/катапультирование, предпочтение простоты, двойное спусковое падение и минимизацию осведомленности о резкости (Sharpness-Aware Minimization).