Starling-7B LLM с обучением с подкреплением от обратной связи искусственного интеллекта

Обучение с подкреплением от обратной связи искусственного интеллекта Starling-7B LLM

Команда исследователей из Университета Калифорнии в Беркли представляет Starling-7B, модель большого языка с открытым исходным кодом (LLM), которая использует обучение с подкреплением на основе обратной связи от искусственного интеллекта (RLAIF). Используя мощь передового набора данных для оценки, Nectar, и сложный процесс обучения с подкреплением и настройки политики, Starling-7B-alpha установила новый стандарт производительности модели языка, превосходя все модели на MT-Bench, кроме GPT-4 и GPT-4 Turbo от OpenAI.

Потенциал обучения с подкреплением

Хотя наблюдается эффективность обучения с учителем при разработке систем чатботов, потенциал обучения с подкреплением на основе обратной связи от человека (RLHF) или от искусственного интеллекта (RLAIF) для улучшения моделей масштаба является предметом ограниченного исследования. Ранее модели, такие как Zephyr-7B и Neural-Chat-7B, не полностью показали потенциал RLHF по сравнению с ведущими моделями с обучением с учителем (SFT).

Для заполнения этого пробела исследовательская команда представляет Nectar, тщательно созданный высококачественный набор данных ранжирования, специально разработанный для чата и состоящий из 183 тысяч запросов и 3,8 миллиона попарных сравнений. Целью этого набора данных является облегчение более глубокого исследования RLHF, предлагая разнообразный набор запросов, полученных от различных моделей.

Выход ранжировочной модели Starling-RM-7B-alpha и сложнонастраиваемой модели языка (LLM) Starling-LM-7B-alpha на HuggingFace является значительным прорывом в исследованиях искусственного интеллекта с открытым исходным кодом. Особенно стоит отметить, что оценка модели на MT-Bench повысилась с 7,81 до впечатляющих 8,09, а также характеристика AlpacaEval, измеряющая полезность чатбота, улучшилась с 88,51% до 91,99%.

Также читайте: Что такое обучение с подкреплением и как оно работает (2023)

Оценка модели

Оценка Starling-7B представляет уникальные вызовы. Модель большого языка демонстрирует улучшение в отношении полезности и безопасности после использования RLHF, как показывают оценки MT-Bench и AlpacaEval. Однако ее базовые возможности в области вопросно-ответных систем, математики и программирования остаются стабильными или даже немного ухудшаются.

Интеграция Starling-7B в систему LMSYS Chatbot Arena для прямого общения и анонимных сравнений предоставляет платформу для тестирования пользовательских предпочтений. Оценка также подчеркивает ограничения использования лидерборда OpenLLM в качестве эталона для моделей чатов, подчеркивая важность тонких оценок, предлагаемых Alpaca Eval и MT-Bench.

Закон Гудхарта для синтетических предпочтений

Важным аспектом является Закон Гудхарта для синтетических предпочтений. Высокий показатель MT-Bench указывает на улучшение производительности модели согласно GPT-4, но не всегда коррелирует с предпочтениями людей. RLHF в основном улучшает стиль ответов, особенно в аспектах полезности и безопасности, показывая потенциал масштабирования методов онлайн обучения с подкреплением с использованием обширных данных о предпочтениях.

Ограничения

Несмотря на впечатляющую производительность, у Starling-7B есть свои ограничения, с которыми она сталкивается в задачах, требующих логического вывода или математики. Кроме того, признается уязвимость модели к специальным запросам и иногда чрезмерной многословности. Исследовательская команда стремится к непрерывному совершенствованию, предлагая сотрудничество с сообществом для улучшения открытого набора данных, моделей вознаграждения и языковых моделей с использованием RLHF.

Наше мнение

Starling-7B со своим подходом RLAIF и тщательным созданием набора данных является подтверждением потенциала обучения с подкреплением в языковых моделях. Несмотря на существующие проблемы и ограничения, приверженность к улучшению и сотрудничество с широкой общественностью позволяют Starling-7B занять ведущую позицию в развивающемся ландшафте исследований в области искусственного интеллекта. Следите за обновлениями, поскольку команда углубляется в совершенствование механизмов RLHF и внесение вклада в передовые исследования в области безопасности искусственного интеллекта.