Google Research исследует Может ли обратная связь ИИ заменить человеческий ввод для эффективного обучения с подкреплением в больших языковых моделях?

Google Research исследует возможность замены человеческого ввода обратной связью ИИ для эффективного обучения с подкреплением в больших языковых моделях.

“`html

Человеческая обратная связь является неотъемлемой частью улучшения и оптимизации моделей машинного обучения. В последние годы подкрепленное обучение с помощью обратной связи от человека (RLHF) доказало свою крайнюю эффективность в согласовании больших языковых моделей (LLM) с человеческими предпочтениями, но значительная проблема заключается в сборе высококачественных меток предпочтений человека. В исследовательском исследовании исследователи Google AI попытались сравнить RLHF с обучением с подкреплением на основе обратной связи от ИИ (RLAIF). RLAIF – это техника, при которой предпочтения маркируются предварительно обученной LLM вместо использования аннотаторов-людей.

В этом исследовании исследователи провели прямое сравнение между RLAIF и RLHF в контексте задач суммирования. Им было поручено предоставить метки предпочтений для двух кандидатских ответов на основе текста, используя готовую языковую модель (LLM). Затем была обучена модель вознаграждения (RM) на основе предпочтений, выведенных LLM, включая контрастную потерю. Финальным шагом было настройка модели политики с использованием техник обучения с подкреплением. На приведенном выше изображении показана диаграмма, иллюстрирующая RLAIF (вверху) против RLHF (внизу).

На приведенном выше изображении представлены примеры суммаров, сгенерированных политиками SFT, RLHF и RLAIF для поста в Реддите. RLHF и RLAIF производят суммары более высокого качества, чем SFT, который не удается уловить ключевые детали.

Представленные в этом исследовании результаты показывают, что RLAIF достигает сопоставимой производительности с RLHF при оценке двумя различными способами:

  • Во-первых, было отмечено, что и RLAIF, и RLHF получили предпочтение от человеческих оценщиков по сравнению с базовым подкрепленным обучением (SFT) в 71% и 73% случаев соответственно. Важно отметить, что статистический анализ не выявил значительной разницы в победных рейтингах между двумя подходами.
  • Во-вторых, когда людей попросили прямо сравнить результаты, сгенерированные RLAIF и RLHF, они выразили равное предпочтение каждому методу, что привело к 50% победному рейту для каждого метода. Эти результаты свидетельствуют о том, что RLAIF представляет собой жизнеспособную альтернативу RLHF, которая работает независимо от аннотирования человека и обладает привлекательными масштабируемыми свойствами.

Можно отметить, что данная работа исследует только задачу суммирования, оставляя открытым вопрос о применимости к другим задачам. Кроме того, в исследовании не приводится оценка того, является ли вывод на основе больших языковых моделей (LLM) стоимостно-эффективным по сравнению с маркировкой людьми с точки зрения денежных затрат. В будущем исследователи надеются исследовать эту область.

“`