Лучший способ оценить LLM-программы

Как выбрать лучшую LLM-программу эффективные способы оценки

Введение в оценку LLM

Последние достижения в развитии LLM сделали их популярными для различных задач NLP, которые ранее решались с использованием старых методов машинного обучения. Большие языковые модели способны решать разнообразные языковые задачи, такие как классификация, резюмирование, информационный поиск, создание контента, вопросно-ответные системы и поддержка разговора – все это с использованием только одной модели. Но как мы знаем, что они хорошо справляются с этими задачами?

Появление LLM подняло еще одну нерешенную проблему: у нас нет надежного стандарта для их оценки. То, что делает оценку еще сложнее, это то, что они используются для самых различных задач, и нам не хватает четкого определения, что является хорошим ответом для каждого случая использования.

В этой статье обсуждаются текущие подходы к оценке LLM и представляется новая доска лидеров LLM, основанная на оценке человеком, которая улучшает существующие методы оценки.

Текущие подходы и доски лидеров

Первая и обычная форма оценки – запуск модели на нескольких отобранных наборах данных и изучение ее производительности. HuggingFace создала Open LLM Leaderboard, где оцениваются модели с открытым доступом с помощью четырех известных наборов данных (AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA). Это соответствует автоматической оценке и проверяет способность модели получать факты для конкретных вопросов.

Приведен пример вопроса из набора данных MMLU.

Тема: колледж_медицины

Вопрос: Ожидаемым побочным эффектом при приеме креатина является:

  1. А) ослабление мышц
  2. Б) увеличение массы тела
  3. В) мышечные судороги
  4. Г) потеря электролитов

Ответ: (Б)

Оценивать модель по такому типу вопроса является важной метрикой и хорошо служит для проверки фактов, но это не проверяет генеративную способность модели. Наверное, это самый большой недостаток этого метода оценки, поскольку генерация свободного текста является одной из самых важных функций LLM.

Похоже, что в сообществе существует согласие о том, что для правильной оценки модели нам нужна оценка человека. Обычно это делается путем сравнения ответов от разных моделей.

Оценщики решают, какой ответ лучше, как показано на приведенном выше примере, и иногда оценивают разницу в качестве завершения указаний. LMSYS Org создала доску лидеров, которая использует этот тип оценки человеком и сравнивает 17 различных моделей, сообщая рейтинг Elo для каждой модели.

Поскольку оценка человека может быть сложной в масштабе, были предприняты усилия по масштабированию и ускорению процесса оценки, что привело к интересному проекту под названием AlpacaEval. Здесь каждая модель сравнивается с базовой моделью (text-davinci-003, предоставленной GPT-4), и оценка человека заменяется судейством GPT-4. Это действительно быстро и масштабируемо, но можно ли доверять модели в выполнении оценки? Мы должны быть внимательны к смещениям модели. Фактически, проект показал, что GPT-4 может быть склонен к более длинным ответам.

Методы оценки LLM продолжают развиваться, поскольку сообщество искусственного интеллекта ищет простые, справедливые и масштабируемые подходы. Последнее развитие происходит от команды Toloka с новой доской лидеров, чтобы дальше развивать существующие стандарты оценки.

Использование людей для оценки LLM – новый подход

Новый лидерборд сравнивает ответы моделей на реальные запросы пользователей, которые категоризированы по полезным задачам NLP, как описано в статье InstructGPT. Он также показывает общую выигрышную долю каждой модели по всем категориям.

Оценка, использованная для этого проекта, схожа с оценкой в AlpacaEval. Оценки на лидерборде представляют собой долю побед соответствующей модели по сравнению с моделью Guanaco 13B, которая здесь служит базовым сравнением. Выбор модели Guanaco 13B является улучшением метода AlpacaEval, который использует устаревшую модель text-davinci-003 в качестве базовой.

Фактическая оценка производится аннотаторами-экспертами по набору реальных запросов. Для каждого запроса аннотаторам предлагаются два варианта завершения и спрашивают, какой из них им нравится больше. Подробности о методологии можно найти здесь.

Этот тип человеческой оценки более полезен, чем любой другой автоматический метод оценки, и должен быть лучше, чем используемая оценка человека в лидерборде LMSYS. Недостатком метода LMSYS является то, что любой, у кого есть ссылка, может принять участие в оценке, что вызывает серьезные вопросы о качестве собранных данных таким образом. Закрытое сообщество экспертных аннотаторов имеет больший потенциал для получения надежных результатов, и Toloka применяет дополнительные техники контроля качества данных.

Сводка

В этой статье мы представили новое многообещающее решение для оценки LLM — Toloka Leaderboard. Этот подход инновационен, объединяет преимущества существующих методов, обеспечивает задачно-ориентированную гранулярность и использует надежные техники человеческой аннотации для сравнения моделей.

Исследуйте доску и поделитесь своими мнениями и предложениями по улучшению с нами.

[Magdalena Konkiewicz](https://www.aboutdatablog.com/about) является Эвангелистом данных в Toloka, глобальной компании, поддерживающей быструю и масштабируемую разработку искусственного интеллекта. Она имеет степень магистра искусственного интеллекта Эдинбургского университета и работала в качестве инженера NLP, разработчика и специалиста по обработке данных в компаниях Европы и Америки. Она также участвовала в преподавании и наставничестве специалистов по обработке данных и регулярно вносит свой вклад в публикации по науке о данных и машинному обучению.