UC Berkeley представляет открытую программу магистра права, обученную с использованием обратной связи от искусственного интеллекта на основе обучения с подкреплением.

UC Berkeley представляет открытую программу магистра права, обученную с использованием обратной связи от искусственного интеллекта, основанную на методах обучения с подкреплением.

<img src=”https://ai.miximages.com/opendatascience.com/wp-content/uploads/2023/12/Untitled-design-4.png”/><p>В новом <a href=”https://www.rupython.com/ai-report-urges-tech-companies-to-be-transparent.html”>отчете</a> исследователи UC Berkeley представили Starling-7B – революционную модель большого языка, созданную с использованием “Усиленного обучения на основе обратной связи искусственного интеллекта” или RLAIF. Исследователи надеются, что эта модель поможет переопределить область обработки естественного языка, включая передовые технологии и методологии.</p><p>Исследователи указывают, что в основе Starling-7B лежит размеченный набор данных GPT-4, называемый Nectar. Этот набор данных насчитывает впечатляющих 183 000 чат-стимулов, каждый из которых содержит семь ответов от различных моделей, таких как GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct и <a href=”https://www.rupython.com/retroengineering-database-schema-gpt-vs-bard-vs-llama2-ep-2.html”>Llama2-7B</a>.</p><p>Согласно отчету, Nectar облегчает проведение обширных сравнений попарно с использованием 3,8 миллиона сравнений. Для обеспечения справедливости исследователи тщательно удалили позиционный сдвиг при выставлении рейтинга GPT-4, что подробно описано в разделе с набором данных.</p><p>Используя новую модель вознаграждения, исследователи улучшили языковую модель Openchat 3.5 с впечатляющими результатами. Оценка AlpacaEval выросла с 88,51% до 91,99%, а оценка MT-Bench выросла с 7,81 до 8,09 – две важные метрики, оценивающие полезность <a href=”https://www.rupython.com/langchains-chatbot-solution-empowers-multiple-websites.html”>чатбота</a>.</p><p>При тестировании Starling-7B с общедоступными моделями, такими как Zephyra-7B, Neural-Chat-7B и Tulu-2-DPO-70B с использованием оптимизации прямых предпочтений (DPO), продемонстрировалась высокая производительность в арене <a href=”https://www.rupython.com/mastering-arxiv-searches-is-a-guide-to-building-a-qa-chatbot-with-haystack.html”>чатботов</a>. Однако она оказалась ниже по сравнению с лучшими моделями SFT, такими как OpenHermes 2.5 и Openchat 3.5 в MT Bench.</p><p>Несмотря на свои преимущества, Starling-7B имеет свои сложности. Она подвержена обманчивым методам, справляется с математическими и логическими задачами с трудом и иногда предлагает ответы с сомнительной фактической точностью.</p><p>Учитывая эти ограничения, исследователи планируют усовершенствовать Starling-7B, включив в нее модели вознаграждения на основе правил, руководствуясь техниками <a href=”https://www.rupython.com/openai-is-getting-ready-to-launch-gpt6-and-gpt7-as-the-trademarks-have-been-filed-in-china.html”>GPT-4</a>, которые описаны в техническом отчете. Однако кажется, что Starling-7B является значительным прорывом в области больших языковых моделей.</p><p>Ведь она показывает потенциал “Усиленного обучения через <a href=”https://www.rupython.com/rlhf-reinforcement-learning-from-human-feedback.html”>Обратную связь искусственного интеллекта”</a>, сотрудничество различных моделей и общее коммуникационное знание, расширяющее область обработки естественного языка.</p><p>В настоящее время лицензия на использование Starling-7B предоставляет доступ к набору данных, модели и онлайн-демо в качестве предварительного исследования для некоммерческого использования.</p><p> </p><p> </p><p> </p>