Исследователи из Meta и UNC-Chapel Hill представляют Branch-Solve-Merge революционную программу, повышающую производительность больших языковых моделей в сложных языковых задачах.
Branch-Solve-Merge революционная программа от Meta и UNC-Chapel Hill, повышающая производительность больших языковых моделей в сложных языковых задачах
BRANCH-SOLVE-MERGE (BSM) – это программа для улучшения моделей больших языковых моделей (LLMs) в сложных задачах естественного языка. BSM включает модули ветвления, решения и слияния для планирования, разгадывания и объединения подзадач. Примененный к оценке ответов LLM и генерации связанного текста с моделями, такими как Vicuna, LLaMA-2-chat и GPT-4, BSM улучшает согласованность между человеком и LLM, уменьшает предвзятость и позволяет LLaMA-2-chat соперничать или превосходить GPT-4 в большинстве областей. Он также повышает логическую связность и удовлетворенность при генерации сюжетов с ограничениями.
LLM отличается в многофункциональных языковых задачах, но часто нуждается в помощи в сложных ситуациях. BSM – это программа LLM, которая разделяет задачи на шаги и параметризует каждую из них с помощью различных подсказок. Это отход от предыдущих последовательных подходов, ориентированных на задачи, такие как оценка LLM и генерация связанного текста с ограничениями, которые получают выгоду от параллельного декомпозиции. Этот процесс предлагает ценное решение для оценки LLM в сложных задачах генерации текста, особенно в сценариях на основе планирования и с ограничениями, удовлетворяя потребность в комплексной оценке.
LLM отличается в генерации текста, но нуждается в помощи в сложных многозадачных задачах. Исследователи Университета Северной Каролины в Чапел-Хилле и Meta представили метод BSM для решения таких задач. BSM декомпозирует задачи на параллельные подзадачи с использованием модулей ветвления, решения и слияния. Применяемый к оценке ответов LLM и генерации связанного текста, BSM улучшает правильность, согласованность и удовлетворение ограничениями этих задач, полезен для различных LLM, таких как LLaMA-2-chat, Vicuna и GPT-4. Он предлагает многообещающее решение для улучшения производительности LLM в сложных языковых задачах.
- Исследователи из Университета Карнеги-Меллона и Университета Нью-Йорка предлагают метод искусственного интеллекта LLMTime нулевой прогноз временных рядов с использованием больших языковых моделей (LLM).
- Силиконовый волей дизайнеры используют генеративное искусственное интеллекта для поддержки чипов
- Байден выпускает исполнительный приказ по искусственному интеллекту, требующий оценки безопасности, руководства по гражданским правам, исследований влияния на рынок труда
BSM декомпозирует сложные языковые задачи на три модуля: ветвление, решение и слияние. Применяемый к оценке ответов LLM и генерации связанного текста, BSM улучшает правильность, согласованность и уменьшает предвзятость. Он повышает согласованность между человеком и LLM на 26% и улучшает удовлетворение ограничениями на 12%. BSM – это гибкий декомпозиционный подход, который может применяться к различным LLM, что делает его перспективным для улучшения оценки LLM в различных задачах и масштабах.
BSM повышает согласованность между LLM и человеком, достигая улучшения в 12 пунктов для LLaMA-2-70B-chat в вопросах первого и второго хода. Он превосходит самоконсистентность и уменьшает предвзятость на 34% по предубеждению положения и предубеждению длины. BSM позволяет слабым моделям с открытым исходным кодом, таким как LLaMA-2, конкурировать с GPT-4. Производительность BSM простирается на различные области, соответствуя или приближаясь к GPT-4 в различных категориях, улучшая оценки согласованности и уменьшая предвзятость. Он также отличается в оценке вопросов на основе ссылок, превосходя LLaMA-2-70B-chat и GPT-4 в классах, таких как математика, улучшая оценки согласованности и уменьшая предвзятость положения.
Метод BSM решает важные проблемы в оценке LLM и генерации текста, улучшая связность, планирование и декомпозицию задач. Модули ветвления, решения и слияния BSM улучшают оценку ответов LLM и генерацию связанного текста, повышая правильность, согласованность и согласованность между человеком и LLM. BSM также смягчает предубеждение, улучшает логическую связность и повышает удовлетворение ограничениями. Он показывает эффективность в различных LLM и областях, превосходя даже GPT-4 в различных категориях. BSM – это гибкий и многообещающий подход для улучшения производительности LLM в различных задачах.
Проверьте эту статью. Всяческая честь за это исследование принадлежит исследователям этого проекта. Также не забудьте присоединиться к нашему сообществу 32к+ ML на Reddit, 40к+ группе на Facebook, каналу Discord, и рассылке по электронной почте, где мы делимся последними новостями исследований в области ИИ, интересными проектами ИИ и многим другим.
Если вам нравится наша работа, вам понравится наша рассылка…
Мы также на Telegram и WhatsApp.
Пост Исследователи из Meta и UNC-Чапел Хилл представляют Branch-Solve-Merge: Революционную программу, улучшающую производительность больших языковых моделей при выполнении сложных языковых задач был опубликован на MarkTechPost.