Использование LLMs для оценки LLMs

Применение LLM-моделей для оценки LLM-моделей

Изображение, созданное OpenAI’s DALL-E 3.

Вы можете попросить ChatGPT действовать миллионом различных способов: быть вашим питомцем, репетитором по языку, врачом и т.д. Неудивительно, что мы видим множество демонстраций и запуска продуктов на основе API OpenAI. Но, хотя легко заставить LLM вести себя определенным образом, обеспечение их эффективности на выполнение заданной задачи является совершенно другой историей.

Проблема заключается в том, что многие критерии, которым мы придаем значение, являются чрезвычайно субъективными. Являются ли ответы точными? Согласованы ли ответы? Были ли выдуманы какие-либо детали? Сложно построить количественные метрики для оценки. В основном вам нужны суждения людей, но проверка большого количества результатов LLM с помощью людей является дорогостоящей.

Более того, LLM имеет множество параметров, которые можно настроить. Запрос, температура, контекст и другие. Вы можете настроить модели на конкретный набор данных в соответствии с вашими потребностями. С помощью инженерии запроса можно изменить производительность к лучшему, даже запросить модель глубоко вздохнуть [1] или сделать ваш запрос более эмоциональным [2]. Есть много возможностей для настройки и экспериментов, но после внесения изменений вам нужно определить, улучшилась ли система в целом или ухудшилась.

Так как человеческий труд медленный и дорогостоящий, существует сильное стимулирование поиска автоматических метрик для этих более субъективных критериев. Один интересный подход, который становится популярным, – использование LLM для оценки вывода LLM. Ведь если ChatGPT может сгенерировать хороший, согласованный ответ на вопрос, значит ли это, что он также может определить, согласованен ли данный текст? Это открывает полный набор потенциальных предубеждений, методик и возможностей, поэтому давайте погрузимся в эти вопросы.

Предубеждения LLM

Если у вас возникает негативная реакция на создание метрик и оценщиков с использованием LLM, ваши опасения оправданы. Это может быть ужасным способом просто распространять существующие предубеждения.

Например, в статье G-Eval, о которой мы поговорим подробнее позже, исследователи показали, что их оценка на основе LLM дает более высокие оценки для сводок GPT-3.5, чем для сводок, написанных людьми, даже если судьи предпочитают сводки, написанные людьми.

Другое исследование, с названием «Большие языковые модели не являются справедливыми оценщиками» [3], показало, что, когда нужно выбрать, какой из двух представленных вариантов лучше, есть значительное предубеждение в порядке представления вариантов. GPT-4, например, часто предпочитал первый предложенный вариант, тогда как ChatGPT предпочитал второй. Вы можете просто задать тот же вопрос, поменяв порядок, и посмотреть, насколько последовательны в своих ответах LLM. Впоследствии были разработаны методы смягчения этого предубеждения путем многократного запуска LLM с разными порядками вариантов.

Оценка оценщиков

В конце дня нам интересно знать, могут ли LLM выполнять работу так же хорошо или похоже на работу человеческих оценщиков. Мы все же можем подойти к этой проблеме с научной точки зрения:

  1. Установить критерии оценки.
  2. Попросить людей и LLM оценивать в соответствии с критериями.
  3. Рассчитать корреляцию между оценкой человека и LLM.

Таким образом, мы можем получить представление о том, насколько LLM похожи на человеческих оценщиков.

Действительно, уже существует несколько исследований, показывающих, что для определенных задач LLM выполняют работу гораздо лучше, чем более традиционные метрики оценки. И стоит отметить, что нам не нужна идеальная корреляция. Если мы оцениваем множество примеров, даже если оценка не идеальна, мы все равно можем получить представление о том, выполняет ли новая система работу лучше или хуже. Мы также можем использовать оценщиков LLM для выявления беспокоящих случаев для человеческих оценщиков.

Давайте рассмотрим некоторые из недавно предложенных метрик и оценщиков, основанных на LLM.

G-Eval

G-Eval [4] работает следующим образом: сначала происходит разработка критериев оценки, а затем просто просится у модели дать оценку. Она может использоваться, например, для задач сводки и генерации диалогов.

G-Eval имеет следующие компоненты:

  1. Задание. Определяет задачу оценки и ее критерии.
  2. Промежуточные инструкции. Описывают промежуточные инструкции для оценки. Они фактически просят LLM сгенерировать эти шаги.
  3. Функция оценки. Вместо того, чтобы брать оценку LLM на веру, мы заглядываем под капот токенных вероятностей, чтобы получить конечную оценку. Таким образом, если вы просите оценить от 1 до 5, вместо того, чтобы просто взять любое число, предоставленное LLM (скажем, “3”), мы будем рассматривать вероятность каждого ранга и вычислять взвешенную оценку. Это связано с тем, что исследователи обнаружили, что обычно одна цифра доминирует в оценке (например, в основном выводится “3”), и даже когда вы запрашиваете у LLM десятичное значение, он все равно склонен возвращать целые числа.
Задание G-Eval для расчета связности на шкале от 1 до 5. Более подробные примеры можно найти в оригинальной статье.

Выяснилось, что G-Eval значительно превосходит традиционные метрики, такие как BLEU и ROUGE, которые имеют относительно низкую корреляцию с суждениями человека. На первый взгляд, это выглядит довольно просто, так как мы просто просим LLM выполнить оценку. Мы также можем попытаться разбить задачи на более мелкие компоненты.

FactScore

FactScore (Фактическая точность в оценке атомарности) [5] – это метрика точности фактов. Две ключевые идеи заключаются в том, чтобы рассматривать атомарные факты как единицу и опираться на конкретный источник знаний для определения достоверности.

Для оценки вы разбиваете генерацию на небольшие “атомарные” факты (например, “Он родился в Нью-Йорке”) и затем проверяете для каждого факта, подтверждается ли он данным источником знаний из действительности. Итоговая оценка рассчитывается путем деления количества подтвержденных фактов на общее количество фактов.

В статье исследователи просили LLM генерировать биографии людей, а затем использовали статьи из Википедии об этих людях в качестве источника правды. Ошибочность LLM, выполняющих ту же процедуру, что и люди, составляла менее 2%.

FactScore для создания биографии Bridget Moynahan. См. также оригинальную статью.

RAGAS

Теперь давайте рассмотрим некоторые метрики для обновляемого поколения с поддержкой поиска (RAG). В RAG вы сначала находите соответствующий контекст во внешней базе знаний, а затем просите LLM ответить на вопрос на основе этих фактов.

RAGAS (Оценка генерации с поддержкой поиска) [6] – это новая система оценки RAG. Это не одна метрика, а скорее их совокупность. Три метрики, предложенные в статье, это точность, связанность ответа и связанность контекста. Эти метрики отлично показывают, как можно разбить оценку на более простые задачи для LLM.

Точность измеряет, насколько ответы корректно основаны на данном контексте. Она очень похожа на FactScore в том, что сначала вы разбиваете генерацию на набор утверждений, а затем спрашиваете LLM, подтверждается ли утверждение данным контекстом. Оценка представляет собой отношение числа подтвержденных утверждений к общему числу утверждений. Для точности исследователи обнаружили очень высокую корреляцию с оценками человека.

Связанность ответа пытается охватить идею того, что ответ отвечает на фактический вопрос. Вы начинаете с того, что просите LLM сформулировать вопросы на основе ответа. Для каждого сгенерированного вопроса вы можете вычислить сходство (создавая вектор и используя косинусное сходство) между сгенерированным вопросом и исходным вопросом. Путем повторения этой операции n раз и усреднения оценок сходства вы получаете конечное значение для связанности ответа.

Контекстная актуальность относится к тому, насколько актуальный предоставленный контекст. Это означает, что предоставленный контекст содержит только информацию, необходимую для ответа на вопрос. В идеальном случае мы передаем LLM необходимую информацию для ответа на вопрос и только ее. Контекстная актуальность рассчитывается путем запроса LLM на извлечение предложений в данном контексте, которые являются актуальными для ответа. Затем просто делим количество актуальных предложений на общее число предложений, чтобы получить окончательный результат.

Здесь вы можете найти дополнительные метрики и объяснения (включая репозиторий GitHub с открытым исходным кодом).

Главное заключается в том, что мы можем преобразовать оценку в более маленькую подзадачу. Вместо того, чтобы спрашивать, поддерживается ли весь текст контекстом, мы спрашиваем только, поддерживается ли маленький конкретный факт контекстом. Вместо того, чтобы прямо указывать число, является ли ответ актуальным, мы просим LLM придумать вопрос к данному ответу.

Заключение

Оценка LLM является крайне интересной исследовательской темой, которая будет привлекать все большее внимание по мере того, как все больше систем начнут использоваться в производстве и применяться в более критических по отношению к безопасности средах.

Мы также можем использовать эти метрики для контроля производительности LLM в процессе работы, чтобы заметить, начинает ли качество выходных данных ухудшаться. Особенно для приложений с высокой стоимостью ошибок, таких как здравоохранение, будет важно разработать ограждения и системы для выявления и снижения ошибок.

Хотя безусловно существуют предубеждения и проблемы, связанные с использованием LLM в качестве оценщиков, мы все же должны сохранять открытый взгляд на это и рассматривать его как исследовательскую проблему. Конечно, люди все равно будут участвовать в процессе оценки, но автоматические метрики могут помочь частично оценить производительность в некоторых ситуациях.

Эти метрики не обязательно должны быть идеальными; им просто нужно работать достаточно хорошо, чтобы указывать на то, как правильно развивать продукты.

Особая благодарность Даниэлю Раффу и Євгену Петяку за их отзывы и предложения.

Оригинальная публикация на портале Medplexity substack.

  1. Янг, Чэнгрун и др. Большие языковые модели как оптимизаторы. arXiv, 6 сент. 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2309.03409.
  2. Ли, Чэн и др. Большие языковые модели понимают и могут быть улучшены с помощью эмоциональных стимулов. arXiv, 5 нояб. 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2307.11760.
  3. Ванг, Пэйи и др. Большие языковые модели не являются справедливыми оценщиками. arXiv, 30 авг. 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2305.17926.
  4. Лю, Ян и др. G-Eval: оценка NLG с использованием GPT-4 с лучшим соответствием человека. arXiv, 23 мая 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2303.16634.
  5. Мин, Севон и др. FActScore: тонкая атомная оценка фактической точности в генерации текста большой длины. arXiv, 11 окт. 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2305.14251.
  6. Эс, Шахул и др. RAGAS: автоматическая оценка применения расширенного получения. 1, arXiv, 26 сент. 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2309.15217.