Эта статья искусственного интеллекта представляет JudgeLM новый подход для масштабной оценки больших языковых моделей в открытых сценариях.
Новый подход JudgeLM к масштабной оценке больших языковых моделей в открытых сценариях статья искусственного интеллекта
Большие языковые модели (LLM) последнее время привлекли много внимания благодаря своей исключительной способности следовать инструкциям и справляться с широким спектром открытых задач. Через настройку по инструкции исследователи предлагают множество техник для выравнивания этих моделей с предпочтениями людей на основе открытых LLM-моделей, таких как FlanT5, OPT, LLaMA и Pythia. Эти выравненные LLM-модели показывают улучшенное понимание человеческих команд и производят более логичные ответы. Однако возможности LLM в открытых задачах должны быть должным образом оценены с помощью текущих бенчмарков и стандартных измерений.
В результате возникла необходимость в новом подходе к бенчмаркам, который мог бы полностью оценить LLM в открытых задачах. Параллельные исследования пытаются изучить различные методы определения производительности LLM. Техники в формате арены получают анонимизированные результаты соревнования LLM, используя платформы краудсорсинга. Человеческие оценки являются надежными, но они также стоят денег и требуют больших усилий. Некоторые методы используют GPT-4 в качестве адъюдикатора. Однако эти подходы нуждаются в помощи с изменениями модели API и возможной раскрытии данных, что может подвергнуть риск повторяемость судьи. PandaLM прилагает усилия для улучшения открытых LLM-моделей, используемых для оценки ответов.
Рисунок 1(a): Пайплайн генерации данных JudgeLM. Вначале собирается 105 тысяч исходных задач в качестве вопросов. Затем они берут ответы из 11 LLM-моделей и выбирают два случайным образом из набора ответов. Наконец, вводят задачи, примеры ответов и, при желании, ответы GPT-4. Это позволяет получить оценки и подробные обоснования для судейского инструктора.
- Эта статья посвящена Графовой модели GraphGPT улучшение графовых нейронных сетей при помощи техник больших языковых моделей для достижения превосходной производительности при нулевом обучении на примерах
- Luma AI запускает Genie новую трехмерную генеративную модель искусственного интеллекта, позволяющую создавать трехмерные объекты по тексту.
- Встречайте SecureLoop инструмент поиска на основе искусственного интеллекта для определения оптимального дизайна ускорителя глубокого обучения, который может повысить производительность сложных задач искусственного интеллекта, требуя меньше энергии.
Тем не менее, полезность таких утонченных моделей в юридической должности ослабляется ограничениями, связанными с размером модели, качеством тренировочных данных и внутренними LLM-предубеждениями. Исследователи из Пекинской академии искусственного интеллекта и Хуажунского университета науки и технологии предлагают оценить LLM в этом исследовании с использованием оптимизированных открытых LLM-моделей, которые действуют как масштабируемые судьи (JudgeLM), способные достигать достаточного согласия с судей-инструктором. Их метод сочетает в себе высококачественный набор данных, полезных для обучения и оценки судейских моделей, с масштабируемыми судьями, действующими в открытых задачах. Они модифицируют открытые LLM-модели для использования их в качестве судей внутри своей системы и изучают, насколько хорошо они масштабируются по размеру модели (от 7B до 33B) и объему тренировочных данных (от 3,5 тыс. до 100 тыс.).
Рисунок 1(b): Пример различных возможностей и настройки JudgeLM. Чтобы улучшить производительность LLM в качестве масштабируемых судей, они используют судейские выборки. Они также предлагают сокращение количества ссылок, поддержку ссылок и аугментацию свопа для настройки LLM в качестве судей с целью преодоления предубеждений в формате, знании и позиции, соответственно.
Как видно на рисунку 1a, их отобранный набор данных состоит из 105 тысяч исходных вопросов, пар ответов LLM и судьи-преподавателя GPT-4. Обратите внимание, что для каждой начальной задачи студенты принимают два решения — одно с референсными ответами и другое без них. Разделение этого набора данных включает отложение 100 тысяч начальных вопросов для обучения (в 2 раза больше, чем PandaLM) и отложение оставшихся вопросов для валидации (в 29 раз больше, чем PandaLM). Предубеждения, включая предубеждение позиции (сугубо выгодные ответы в определенных ситуациях), предубеждение знаний (чрезмерная зависимость от предварительно обученной информации) и предубеждение формата (оптимальная производительность только при определенных формах запроса) неизбежно возникают при использовании LLM в качестве судей.
Они предлагают способы справиться с ними. Кроме того, как видно на рис. 1б, их система JudgeLM имеет расширенные функции, такие как многоходовой разговор, оценка одиночных ответов и оценка нескольких ответов, а также мультимодальные модели. По сравнению с подходами в формате арены, их решение является быстрым и недорогим. Например, модель JudgeLM-7B может оценивать 5000 пар ответов за 3 минуты и требует всего 8 графических процессоров A100. JudgeLM предлагает больше защиты конфиденциальности и повторяемости, чем закрытые LLM-судьи. Их метод изучает возможности масштабирования и предвзятости в тонкой настройке LLM по сравнению с конкурирующими открытыми LLM-судьями.
Более того, представленный ими набор данных является наиболее всеобъемлющим и превосходным, что значительно поможет будущим исследованиям в области анализа моделей судей. В следующем кратко описаны их основные вклады:
• Они предлагают JudgeLM – масштабируемую модель судьи, специально разработанную для оценки LLM в открытых сценариях.
• Они представляют высококачественный масштабный набор данных для моделей судей, обогащенный разнообразными исходными заданиями, сгенерированными ответами LLM и детальными оценками от GPT-4, заложив основу для будущих исследований оценки LLM. Этот набор данных превосходит согласованность «человек-человек» с согласованностью выше 90%. Кроме того, модель JudgeLM обладает обширными возможностями для выполнения длительных задач.
• Они изучают существующую предвзятость в LLM, настройку судей и предлагают несколько решений. Их техники значительно повышают последовательность модели в различных сценариях, увеличивая надежность и адаптируемость JudgeLM.