«Эта статья AI от Google DeepMind изучает разрыв между составом данных предварительного обучения и контекстным обучением в предварительно обученных трансформерах».

«Исследование разрыва между составом данных предварительного обучения и контекстным обучением в предварительно обученных трансформерах статья AI от Google DeepMind»

Исследователи из Google DeepMind исследуют возможности в контексте обучения (ICL) больших языковых моделей, в частности трансформеров, обученных на разнообразные семейства задач. Однако их исследование требует доработки по внешним задачам, раскрывая ограничения обобщения для функций, выходящих за пределы распределения претренировки. Результаты указывают на то, что впечатляющие возможности ICL моделей последовательностей высокой емкости зависят больше от охвата данных претренировки, чем от врожденных индуктивных предпочтений для фундаментального обобщения.

Исследование изучает способность моделей трансформера выполнять обучение с небольшим количеством данных с использованием ICL. Оно подчеркивает влияние данных претренировки на производительность моделей. Исследование показывает, что трансформеры хорошо справляются с выбором моделей без надзорного обучения, когда данные претренировки достаточно охватывают семейства задач. Однако они сталкиваются с ограничениями и сниженной обобщаемостью при работе с внешними задачами. Это показывает, что модели, обученные на смешанных классах функций, практически так же хорошо справляются, как и те, которые обучены исключительно одному классу. Исследование включает кривые обучения ICL, иллюстрирующие производительность моделей для различных составов данных претренировки.

Исследование углубляется в возможности ICL моделей трансформера, подчеркивая их способность к обучению задачам в пределах и за пределами данных претренировки. Трансформеры проявляют впечатляющую способность обучения с небольшим количеством данных, преуспевая в обработке высокоразмерных и нелинейных функций. Исследование фокусируется на том, как данные претренировки влияют на эти способности в контролируемой среде, стремясь понять влияние конструкции источника данных. Оно оценивает умение модели выбирать между классами функций, видимыми в претренировке, и исследует обобщение вне диапазона распределения. Оценка производительности включает задачи, не участвующие в обучении, и экстремальные вариации функций, видимых в претренировке.

В контролируемом исследовании используются модели трансформера, обученные на парах (x, f(x)), а не на естественных языках, для изучения влияния данных претренировки на обучение с небольшим количеством данных. Сравнивая модели с различными составами данных претренировки, исследование оценивает их производительность в различных функциях оценки. Анализируя выбор модели между классами функций и исследуя обобщение вне диапазона распределения, исследование включает кривые ICL, демонстрирующие среднеквадратическую погрешность для разных составов данных претренировки. Оценки задач в пределах и вне предела распределения претренировки раскрывают эмпирические доказательства режимов сбоя и сниженной обобщаемости.

Модели трансформера демонстрируют почти оптимальный выбор без надзорного обучения внутри хорошо представленных семейств задач из данных претренировки. Однако, когда сталкиваются с задачами вне данных претренировки, они проявляют различные режимы сбоев и сниженную обобщаемость. Сравнение моделей с разными составами данных претренировки показывает, что модели, обученные на разнообразной смеси данных, практически так же хорошо справляются, как и те, которые обучены исключительно одному классу функций. Исследование вводит метрику среднего квадратического отличия, нормализованную различиями между разреженными и плотными моделями, подчеркивая важность покрытия данных претренировки по сравнению с индуктивными предпочтениями для фундаментальных способностей обобщения.

В заключение, состав данных претренировки играет важную роль в точном выборе модели для моделей трансформера, особенно в настройках естественного языка. Хотя эти модели могут изучать новые задачи без явного обучения, им может понадобиться помощь в справлении с задачами вне данных претренировки, что приводит к различным режимам сбоя и сниженной обобщаемости. Поэтому важно понимать и облегчать ICL для улучшения общей эффективности этих моделей.