«Исследование новых горизонтов в искусственном интеллекте исследование от Google DeepMind об улучшении машинного обучения с помощью метода ReSTEM самостоятельного обучения за пределами данных, созданных человеком»

Google DeepMind Новые горизонты в искусственном интеллекте – улучшение машинного обучения с помощью метода ReSTEM и автономного обучения

“`html

Большие языковые модели (LLM) трансформируют глубокое обучение, продемонстрировав поразительные способности производить текст, сравнимый с текстом человека, и выполнять широкий спектр языковых задач. Получение качественных человеческих данных — главное препятствие, даже при использовании метода обучения с подкреплением на основе наблюдаемых данных, собранных от людей, улучшающего их производительность в задачах интереса. Это особенно затруднительно при решении сложных проблем, требующих значительных ресурсов и специализированных знаний. Чтобы преодолеть эту преграду, синтетические данные, созданные моделью, вполне могут стать масштабируемым и доступным решением, если обеспечена их качественность. 

В данном исследовании исследователи из Google Deepmind и Mila исследуют более простой сценарий, в котором внешний скалярный обратный сигнал служит индикатором качества для каждого созданного образца, даже если LLM могут самостоятельно оценивать созданные данные. Исследовательская команда предлагает простую, но эффективную технику самообучения языковых моделей, которая включает только два навыка: 1) создание образцов моделью и 2) оценку этих образцов с использованием механизма оценки. Благодаря такому подходу мы можем изучать обучение на данных, созданных моделью. Команда исследователей использует номенклатуру Reinforced Self-Training и называет эту технику ReST𝐃𝑀, чтобы достичь единообразия и ясности. Команда исследователей демонстрирует, как ReST𝐃𝑀 может рассматриваться как использование максимизации ожидания для обучения с подкреплением. 

В частности, ReST𝐃𝑀 переключается между фазами ожидания и максимизации в следующем порядке: 1. Генерация (E-шаг): Для каждого входного контекста языковая модель производит несколько образцов вывода. Затем исследовательская команда создает тренировочный набор данных, фильтруя эти образцы с использованием бинарного вознаграждения. 2. Улучшение (M-шаг): Оригинальная языковая модель проходит процесс обучения и корректировки с использованием тренировочного набора данных из предыдущей фазы генерации. Затем следующая фаза генерации использует корректированную модель. Применение ReST𝐃𝑀 и его вариантов продемонстрировало эффективность в улучшении языковых моделей во многих областях, таких как машинный перевод, семантический разбор и выравнивание предпочтений.

ReST𝐃𝑀 в основном использовался в ранних исследованиях на очень маленьких языковых моделях (до 7B параметров), с ограниченной масштабируемостью для более крупных моделей. Их работа направлена на дополнение этих усилий путем сравнения масштабируемости и эффективности синтетических данных, созданных моделями, и данных, предоставленных людьми, в двух сложных, но мало изученных областях: генерация кода (APPS) и решение математических проблем на уровне соревнований (MATH). Их результаты свидетельствуют о том, что применение ReST𝐃𝑀 к моделям PaLM 2 разных размеров существенно улучшает навыки математического мышления и генерации кода.

Удивительно, модели, которые усовершенствовались на искусственных данных, созданных моделью, превосходят те, которые обучались на данных, предоставленных людьми, с большим отрывом. Более того, улучшение снижается после нескольких циклов ReST𝐃𝑀, указывая на возможность переобучения на ограниченном количестве тренировочных случаев. Кроме того, модели, оптимизированные с использованием ReST𝐃𝑀, улучшают способности к распознаванию majority voting и pass@k. Наконец, эти усовершенствованные модели демонстрируют улучшенную производительность на похожих, но отличающихся бенчмарках, включая задачи Big-Bench Hard, кодирование (HumanEval) и арифметические задачи (GSM8K и финалы Hungarian HS). Наконец, проводятся абляционные исследования для изучения эффектов тренировки проблем, итераций и количества решений, созданных моделью, на благоприятную корректировку ReST𝐸𝑀.

“`