RLHF Обучение с подкреплением на основе обратной связи от человека

Обучение с подкреплением RLHF человеческая обратная связь в основе

Успешный ингредиент ChatGPT: Инструкционные данные.

ChatGPT заворожил мир своими впечатляющими возможностями. Но каким образом он стал таким умным?

Недавно я поговорил с одним из бывших коллег, программистом, которого я очень уважаю, и заметил, что он считает ChatGPT проявлением ИИ общего назначения, указывая на его способность упрощать сложные темы до уровня понимания шестилетнего ребенка в качестве доказательства. Хотя я не полностью согласен с ним относительно его необоснованного интеллекта, я почувствовал необходимость высказать свои мысли. В этой статье я хотел бы подчеркнуть, что волшебство ChatGPT в значительной степени зависит от его обучающих данных.

Тщательно подобранные инструкционные данные являются ключом к человекоподобным возможностям ChatGPT. Вещи, такие как объяснение концепций шестилетнему ребенку, превращение резюме в профиль LinkedIn, идеи для мозгового штурма и т. д., не возникли просто так — они были преднамеренно закодированы в модель в виде обучающих данных.

Как и все остальные, это первый раз, когда я сталкиваюсь с закрытым исследованием. Со времен университета все граничные исследования были открытыми и подвергались рецензии, пока недавно. И я считаю, что открытость в конечном счете способствует развитию науки больше, чем закрытость.

Если мы хотим сравняться с производительностью ChatGPT через открытый исходный код, я считаю, что мы должны серьезнее относиться к обучающим данным. Значительная часть эффективности ChatGPT, вероятно, не происходит из каких-то конкретных архитектур машинного обучения, методов настройки или фреймворков. Скорее всего, это зависит от объема, масштаба и качества инструкционных данных.

Прямо говоря, настройка больших языковых моделей на посредственных инструкционных данных — пустая трата. Давайте посмотрим, что изменилось в обучающих данных и парадигме обучения — как мы теперь форматируем данные для обучения и, следовательно, учимся иначе, чем в прошлом при масштабном предварительном обучении.

Что такое RLHF?

RLHF означает Обучение с подкреплением на основе обратной связи от людей. Оно состоит из двух основных компонентов:

  1. Обучение с подкреплением (RL)
  2. Обратная связь от людей (HF)