Эта статья искусственного интеллекта представляет JudgeLM новый подход для масштабной оценки больших языковых моделей в открытых сценариях.

Новый подход JudgeLM к масштабной оценке больших языковых моделей в открытых сценариях статья искусственного интеллекта

Большие языковые модели (LLM) последнее время привлекли много внимания благодаря своей исключительной способности следовать инструкциям и справляться с широким спектром открытых задач. Через настройку по инструкции исследователи предлагают множество техник для выравнивания этих моделей с предпочтениями людей на основе открытых LLM-моделей, таких как FlanT5, OPT, LLaMA и Pythia. Эти выравненные LLM-модели показывают улучшенное понимание человеческих команд и производят более логичные ответы. Однако возможности LLM в открытых задачах должны быть должным образом оценены с помощью текущих бенчмарков и стандартных измерений.

В результате возникла необходимость в новом подходе к бенчмаркам, который мог бы полностью оценить LLM в открытых задачах. Параллельные исследования пытаются изучить различные методы определения производительности LLM. Техники в формате арены получают анонимизированные результаты соревнования LLM, используя платформы краудсорсинга. Человеческие оценки являются надежными, но они также стоят денег и требуют больших усилий. Некоторые методы используют GPT-4 в качестве адъюдикатора. Однако эти подходы нуждаются в помощи с изменениями модели API и возможной раскрытии данных, что может подвергнуть риск повторяемость судьи. PandaLM прилагает усилия для улучшения открытых LLM-моделей, используемых для оценки ответов.

Рисунок 1(a): Пайплайн генерации данных JudgeLM. Вначале собирается 105 тысяч исходных задач в качестве вопросов. Затем они берут ответы из 11 LLM-моделей и выбирают два случайным образом из набора ответов. Наконец, вводят задачи, примеры ответов и, при желании, ответы GPT-4. Это позволяет получить оценки и подробные обоснования для судейского инструктора.

Тем не менее, полезность таких утонченных моделей в юридической должности ослабляется ограничениями, связанными с размером модели, качеством тренировочных данных и внутренними LLM-предубеждениями. Исследователи из Пекинской академии искусственного интеллекта и Хуажунского университета науки и технологии предлагают оценить LLM в этом исследовании с использованием оптимизированных открытых LLM-моделей, которые действуют как масштабируемые судьи (JudgeLM), способные достигать достаточного согласия с судей-инструктором. Их метод сочетает в себе высококачественный набор данных, полезных для обучения и оценки судейских моделей, с масштабируемыми судьями, действующими в открытых задачах. Они модифицируют открытые LLM-модели для использования их в качестве судей внутри своей системы и изучают, насколько хорошо они масштабируются по размеру модели (от 7B до 33B) и объему тренировочных данных (от 3,5 тыс. до 100 тыс.).

Рисунок 1(b): Пример различных возможностей и настройки JudgeLM. Чтобы улучшить производительность LLM в качестве масштабируемых судей, они используют судейские выборки. Они также предлагают сокращение количества ссылок, поддержку ссылок и аугментацию свопа для настройки LLM в качестве судей с целью преодоления предубеждений в формате, знании и позиции, соответственно.

Как видно на рисунку 1a, их отобранный набор данных состоит из 105 тысяч исходных вопросов, пар ответов LLM и судьи-преподавателя GPT-4. Обратите внимание, что для каждой начальной задачи студенты принимают два решения — одно с референсными ответами и другое без них. Разделение этого набора данных включает отложение 100 тысяч начальных вопросов для обучения (в 2 раза больше, чем PandaLM) и отложение оставшихся вопросов для валидации (в 29 раз больше, чем PandaLM). Предубеждения, включая предубеждение позиции (сугубо выгодные ответы в определенных ситуациях), предубеждение знаний (чрезмерная зависимость от предварительно обученной информации) и предубеждение формата (оптимальная производительность только при определенных формах запроса) неизбежно возникают при использовании LLM в качестве судей.

Они предлагают способы справиться с ними. Кроме того, как видно на рис. 1б, их система JudgeLM имеет расширенные функции, такие как многоходовой разговор, оценка одиночных ответов и оценка нескольких ответов, а также мультимодальные модели. По сравнению с подходами в формате арены, их решение является быстрым и недорогим. Например, модель JudgeLM-7B может оценивать 5000 пар ответов за 3 минуты и требует всего 8 графических процессоров A100. JudgeLM предлагает больше защиты конфиденциальности и повторяемости, чем закрытые LLM-судьи. Их метод изучает возможности масштабирования и предвзятости в тонкой настройке LLM по сравнению с конкурирующими открытыми LLM-судьями.

Более того, представленный ими набор данных является наиболее всеобъемлющим и превосходным, что значительно поможет будущим исследованиям в области анализа моделей судей. В следующем кратко описаны их основные вклады:

• Они предлагают JudgeLM – масштабируемую модель судьи, специально разработанную для оценки LLM в открытых сценариях.

• Они представляют высококачественный масштабный набор данных для моделей судей, обогащенный разнообразными исходными заданиями, сгенерированными ответами LLM и детальными оценками от GPT-4, заложив основу для будущих исследований оценки LLM. Этот набор данных превосходит согласованность «человек-человек» с согласованностью выше 90%. Кроме того, модель JudgeLM обладает обширными возможностями для выполнения длительных задач.

• Они изучают существующую предвзятость в LLM, настройку судей и предлагают несколько решений. Их техники значительно повышают последовательность модели в различных сценариях, увеличивая надежность и адаптируемость JudgeLM.