Исследователи Университета Калифорнии в Беркли представляют Starling-7B открытую модель большого языка (LLM), обученную с помощью подкрепления обучению на основе обратной связи от искусственного интеллекта (RLAIF).

Университет Калифорнии в Беркли представляет Starling-7B открытая модель большого языка (LLM), обученная с помощью обратной связи от искусственного интеллекта (RLAIF).

Большие языковые модели (LLM) — это модели искусственного интеллекта для обработки естественного языка. Эти модели обучаются на огромных наборах данных и могут понимать и генерировать тексты, похожие на человеческие. Они трансформировали обработку естественного языка своей способностью понимать и разрабатывать тексты, похожие на человеческие. Их полезность применяется во всех сферах жизни.

Исследователи из Университета Калифорнии в Беркли представили Starling-7B, открытую модель большой языковой модели (LLM), обученную с помощью обратной связи от искусственного интеллекта с помощью обучения с подкреплением (RLAIF). Модель использует возможности недавно разработанного процесса обучения с наградой и настройки политики, нового набора данных со списками ранжирования GPT-4, Nectar, и передового процесса обучения и настройки политики с наградами.

https://starling.cs.berkeley.edu/

Основой Starling-7B является набор данных со списками ранжирования GPT-4, Nectar. Он содержит 183 000 чат-запросов, и каждый запрос содержит семь ответов от различных моделей, таких как GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct и Llama2-7B, в результате чего получается более 3,8 миллиона попарных сравнений. Для обеспечения справедливости исследователи приложили значительные усилия по устранению позиционного предубеждения при запросе ранжирования GPT-4, процесс подробно описан в разделе набора данных.

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Они использовали модель обучения на основе награды для улучшения модели языка Openchat 3.5 и получили впечатляющие результаты. Оценка AlpacaEval выросла с 88,51% до 91,99%, а оценка MT-Bench увеличилась с 7,81 до 8,09. Эти метрики служат стандартами, оценивающими полезность чат-бота.

Исследователи протестировали модель с помощью ранее разработанных моделей с открытым исходным кодом, таких как Zephyra-7B, Neural-Chat-7B и Tulu-2-DPO-70B, используя оптимизацию прямых предпочтений (DPO). В то время как эти модели показали хорошие результаты в Chatbot Arena, они могли бы достичь полного потенциала RLHF по сравнению с лучшими моделями SFT, такими как OpenHermes 2.5 и Openchat 3.5 в MT Bench.

Исследователи подчеркнули, что у модели есть определенные сложности. Она подвержена обманным или манипулятивным методам. Кроме того, модель имеет проблемы с математическими или логическими задачами, и фактическая точность ее выводов может гарантироваться только иногда. Они также отметили, что модель иногда страдает от навязчивости и подвержена разблокировке. Они сказали, что эти недостатки всё еще посвящены улучшению Starling-7B.

Для решения этой проблемы они предложили дальнейшее усовершенствование модели с использованием моделей наград на основе правил, при которых GPT-4 служит руководством, используя техники, описанные в Техническом отчете GPT-4.

В заключение, Starling-7B представляет собой значительное развитие в области LLM и демонстрирует возможности обучения с подкреплением с использованием обратной связи от искусственного интеллекта. Область обработки естественного языка улучшается благодаря сотрудничеству этих моделей и общим знаниям сообщества. Исследователи работают над улучшением производительности модели и решением ограничений.

Сообщение UC Berkeley Researchers Introduce Starling-7B: An Open Large Language Model (LLM) Trained by Reinforcement Learning from AI Feedback (RLAIF) появилось сначала на MarkTechPost.