Исследователи Университета Калифорнии в Беркли представляют Starling-7B открытую модель большого языка (LLM), обученную с помощью подкрепления обучению на основе обратной связи от искусственного интеллекта (RLAIF).
Университет Калифорнии в Беркли представляет Starling-7B открытая модель большого языка (LLM), обученная с помощью обратной связи от искусственного интеллекта (RLAIF).
Большие языковые модели (LLM) — это модели искусственного интеллекта для обработки естественного языка. Эти модели обучаются на огромных наборах данных и могут понимать и генерировать тексты, похожие на человеческие. Они трансформировали обработку естественного языка своей способностью понимать и разрабатывать тексты, похожие на человеческие. Их полезность применяется во всех сферах жизни.
Исследователи из Университета Калифорнии в Беркли представили Starling-7B, открытую модель большой языковой модели (LLM), обученную с помощью обратной связи от искусственного интеллекта с помощью обучения с подкреплением (RLAIF). Модель использует возможности недавно разработанного процесса обучения с наградой и настройки политики, нового набора данных со списками ранжирования GPT-4, Nectar, и передового процесса обучения и настройки политики с наградами.
![](https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-04-at-12.47.00-AM-1024x456.png)
Основой Starling-7B является набор данных со списками ранжирования GPT-4, Nectar. Он содержит 183 000 чат-запросов, и каждый запрос содержит семь ответов от различных моделей, таких как GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct и Llama2-7B, в результате чего получается более 3,8 миллиона попарных сравнений. Для обеспечения справедливости исследователи приложили значительные усилия по устранению позиционного предубеждения при запросе ранжирования GPT-4, процесс подробно описан в разделе набора данных.
- Исследователи из университета Техаса продемонстрировали предсказание осложнений при имплантационной реконструкции с использованием машинного обучения
- Это исследование глубокого обучения раскрывает особые изменения в мозге у подростков с СДВГ прорыв в анализе МРТ-скана
- Исследователи Корнелльского университета раскрывают сведения о подсказках языковой модели глубокий погружение в то, как вероятности следующего токена могут раскрыть скрытый текст.
![](https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-04-at-12.47.41-AM-1024x880.png)
Они использовали модель обучения на основе награды для улучшения модели языка Openchat 3.5 и получили впечатляющие результаты. Оценка AlpacaEval выросла с 88,51% до 91,99%, а оценка MT-Bench увеличилась с 7,81 до 8,09. Эти метрики служат стандартами, оценивающими полезность чат-бота.
Исследователи протестировали модель с помощью ранее разработанных моделей с открытым исходным кодом, таких как Zephyra-7B, Neural-Chat-7B и Tulu-2-DPO-70B, используя оптимизацию прямых предпочтений (DPO). В то время как эти модели показали хорошие результаты в Chatbot Arena, они могли бы достичь полного потенциала RLHF по сравнению с лучшими моделями SFT, такими как OpenHermes 2.5 и Openchat 3.5 в MT Bench.
Исследователи подчеркнули, что у модели есть определенные сложности. Она подвержена обманным или манипулятивным методам. Кроме того, модель имеет проблемы с математическими или логическими задачами, и фактическая точность ее выводов может гарантироваться только иногда. Они также отметили, что модель иногда страдает от навязчивости и подвержена разблокировке. Они сказали, что эти недостатки всё еще посвящены улучшению Starling-7B.
Для решения этой проблемы они предложили дальнейшее усовершенствование модели с использованием моделей наград на основе правил, при которых GPT-4 служит руководством, используя техники, описанные в Техническом отчете GPT-4.
В заключение, Starling-7B представляет собой значительное развитие в области LLM и демонстрирует возможности обучения с подкреплением с использованием обратной связи от искусственного интеллекта. Область обработки естественного языка улучшается благодаря сотрудничеству этих моделей и общим знаниям сообщества. Исследователи работают над улучшением производительности модели и решением ограничений.
Сообщение UC Berkeley Researchers Introduce Starling-7B: An Open Large Language Model (LLM) Trained by Reinforcement Learning from AI Feedback (RLAIF) появилось сначала на MarkTechPost.