Исследование Google DeepMind исследует загадочное явление грокания в нейронных сетях раскрывая взаимодействие между запоминанием и обобщением.

Google DeepMind research explores the mysterious phenomenon of grokking in neural networks, revealing the interaction between memorization and generalization.

Традиционная теория о том, как нейронные сети учатся и обобщают, ставится на испытание появлением гроккинга в нейронных сетях. Когда нейронная сеть обучается, ожидается, что ее производительность на тестовых данных также улучшится, поскольку потеря обучения снижается и сходится к низкому значению, но в конечном итоге поведение сети стабилизируется. Хотя сеть сначала кажется запоминающей тренировочные данные, гроккинг добавляет странное поведение, которое приводит к низкой и стабильной потере обучения, но плохой обобщаемости. Удивительно, что сеть развивается до идеальной обобщаемости с дополнительным обучением.

Появляется вопрос: почему даже после достижения практически идеальной тренировочной производительности производительность сети при тестировании значительно улучшается при дальнейшем обучении? Сеть сначала достигает идеальной точности при обучении, но показывает плохую обобщаемость, а затем, с дополнительным обучением, она превращается в идеальную обобщаемость. Это поведение по сути гроккинга в нейронных сетях. В недавней научной статье команда исследователей предложила объяснение гроккинга на основе существования двух типов решений в задаче, которую сеть пытается выучить. Решения были следующими.

  1. Обобщающее решение: с этим подходом нейронная сеть хорошо подходит для обобщения новых данных. С той же нормы параметра, то есть амплитуды параметров сети, она может создавать более высокие логиты или значения вывода, которые характеризуются более медленным обучением, но более высокой эффективностью.
  1. Запоминание решения: сеть запоминает тренировочные данные в этом подходе, что приводит к идеальной точности при обучении, но неэффективной обобщаемости. Цепи памяти быстро воспринимают новую информацию, но они менее эффективны, так как им требуется больше входных данных для генерации тех же значений логита.

Команда поделилась, что цепи запоминания становятся менее эффективными с увеличением размера тренировочного набора данных, но обобщающие цепи в основном не подвержены влиянию. Это означает, что существует критический размер набора данных, то есть размер, при котором как обобщающие, так и запоминающие цепи одинаково эффективны. Команда подтвердила четыре инновационные гипотезы, обладающие сильными доказательствами в поддержку своего объяснения.

  1. Авторы предсказали и продемонстрировали, что гроккинг происходит, когда сеть сначала переключается с запоминания входных данных на постепенное уделяние внимания обобщению. Точность тестирования увеличивается в результате этого изменения.
  1. Они предложили идею критического размера набора данных, при котором цепи запоминания и обобщения одинаково эффективны. Этот критический размер представляет собой важный этап в процессе обучения.
  1. Ангроккинг: одним из самых неожиданных результатов стало обнаружение “ангроккинга”. Если сеть дальше обучается на наборе данных, значительно меньшем, чем критический размер набора данных после успешного освоения, точность тестирования падает от идеальной до низкой.
  1. Полу-гроккинг: исследование представляет полу-гроккинг, при котором сеть проходит через фазовый переход после обучения на наборе данных, который балансирует эффективность цепей запоминания и обобщения, но достигает только частичной, а не идеальной точности тестирования. Это поведение демонстрирует тонкое взаимодействие различных механизмов обучения в нейронных сетях.

В заключение, эти исследования предложили подробное и оригинальное объяснение явления гроккинга. Оно показывает, что ключевым фактором, влияющим на поведение сети во время обучения, является сосуществование памяти и решений обобщения, а также эффективность этих решений. Таким образом, с предсказаниями и эмпирическими данными, предоставленными в исследовании, обобщение нейронной сети и ее динамика могут быть лучше поняты.