Исследователи из UCL и Google DeepMind раскрывают мимолетную динамику контекстного обучения (ICL) в нейронных сетях-трансформерах.

Раскрытие мимолетной динамики контекстного обучения (ICL) в нейронных сетях-трансформерах от исследователей UCL и Google DeepMind

Способность модели использовать входные данные на этапе вывода, чтобы изменить свое поведение, не обновляя веса, чтобы решить проблемы, которые не были присутствовы во время обучения, известна как контекстное обучение или ICL. Архитектуры нейронных сетей, специально созданные и обученные для обработки знаний на небольшом количестве примеров, были первыми, которые продемонстрировали эту способность. Чтобы модель хорошо выполняла обучающий набор, ей пришлось запомнить соответствия между примерами и метками для предсказаний в будущем. В таких случаях обучение означало перемещение меток, соответствующих входным примерам, на каждом “эпизоде”. На тестовое время подавались новые сочетания примеров и меток, и задача сети состояла в классификации запросов с использованием этих данных.

Исследования ICL развивались после разработки трансформера. Было отмечено, что авторы не ставили целью специально поощрять его при помощи цели обучения или данных. Вместо этого модель трансформера GPT-3, обученная авторегрессивно с соответствующим размером, продемонстрировала ICL. С тех пор было проведено значительное количество исследований, изучающих или документирующих случаи ICL. Благодаря этим убедительным открытиям интересные возможности в массовых нейронных сетях стали объектом исследования. Однако недавние исследования показали, что обучение трансформеров не всегда приводит к ICL. Исследователи обнаружили, что ICL в трансформерах значительно влияется определенными лингвистическими характеристиками данных, такими как “взрывоопасность” и их высоко асимметричное распределение.

Исследователями из Университета Колледжа Лондона и Google Deepmind было выяснено, что трансформеры обычно используют IWL (обучение с сохранением весов) в случае, если они обучаются на данных, не обладающих этими характеристиками. Вместо использования свежей контекстной информации трансформер в режиме IWL использует данные, сохраненные в весах модели. ICL и IWL, кажется, противоположны друг другу; ICL кажется появляется легче при бурстовых данных, когда объекты появляются в кластерах, а не случайно, и при наличии большого количества маркеров или классов. Чтобы лучше понимать явление ICL в трансформерах, необходимо проводить контролируемые исследования с использованием установленных распределений генерации данных.

Одновременно проводится анализ возникновения гигантских моделей, обучаемых непосредственно на органических данных представленных в сети Интернет, что позволяет сделать вывод, что удивительные возможности, такие как ICL, скорее всего возникают в больших моделях, обученных на большем количестве данных. Однако, зависимость от больших моделей представляет значительные прагматические препятствия, включая быструю инновацию, энергоэффективное обучение в условиях ограниченных ресурсов и эффективность применения. В результате, значительное количество исследований сосредоточено на разработке более компактных моделей трансформера, которые могут обеспечивать аналогичную производительность, включая возникающий ICL. В настоящее время предпочтительным методом разработки компактных, но эффективных моделей является избыточное обучение. Эти небольшие модели требуют вычислительных ресурсов и обучаются на большем количестве данных – возможно, повторяя это процесс несколько раз – чем требуют правила масштабирования.

Рисунок 1: С 12 слоями и размерностью вложения 64, обученных на 1600 курсах со 20 примерами на класс, контекстное обучение является временным. В каждой тренировочной сессии наблюдаются внезапные скачки. В связи с ограниченным временем обучения исследователи не наблюдали временного режима ICL, несмотря на то, что окружающая их среда сильно поощряет ICL. (a) Точность оценщика ICL. (b) Точность оценщиков IWL. Исследовательская группа замечает, что точность оценщика IWL медленно улучшается из-за того, что тестовые последовательности не принадлежат к распределению, в то время как точность на тренировочных последовательностях составляет 100%.(c) Потери в журналах обучения. Два цвета обозначают два экспериментальных сценария.

В основе избыточного обучения лежит предположение, заложенное в большинстве недавних исследований ICL в LLM, если не во всех, – упорство. Считается, что модель будет сохраняться во время обучения так долго, как только будет достаточно обучена, чтобы появилась способность, зависящая от ICL, при условии, что потеря обучения продолжает снижаться. В своем исследовании команда ученых опровергает широко распространенное предположение о наличии упорства. Они делают это, модифицируя общеупотребительный набор данных на основе изображений, что позволяет им тщательно оценить ICL в контролируемой среде. Они предоставляют простые сценарии, в которых ICL появляется и затем исчезает по мере снижения потерь модели.

Другими словами, несмотря на то, что МКЛ широко признается как возникающее явление, исследовательская группа также должна учесть возможность, что оно может длиться только временно (рисунок 1). Исследовательская группа обнаружила, что временность происходит для различных размеров моделей, размеров наборов данных и видов наборов данных, хотя исследовательская группа также показала, что некоторые характеристики могут замедлить временность. В целом, сети, которые обучаются безответственно в течение продолжительного времени, обнаруживают, что МКЛ может исчезать так же быстро, как оно появляется, лишая модели умений, которые люди начинают ожидать от современных систем искусственного интеллекта.