К несубъективной оценке больших языковых моделей

Объективная оценка широких языковых моделей

Как утечка оценок и контаминация данных подрывают оценку LLM-моделей

Изображение от автора. (С помощью искусственного интеллекта)

“Наша новая LLM превосходит GPT в каждом тесте!”

Сегодня все чаще можно услышать смелые заявления вроде этой, ведь гипер превышает все границы. Каждую неделю появляются новые модели, и в настоящее время каждый пытается конкурировать с GPT-4, который все еще является самой мощной LLM-моделью.

Бенчмаркинг является ключевой частью оценки прогресса в больших моделях естественного языка.

Бенчмарки вроде MMLU и HellaSwag стали стандартом для оценки языковых моделей по таким навыкам, как логическое мышление и понимание. Оценочные показатели дают представление о прогрессе, и новые передовые результаты приветствуются как прорывы. LLM-модели обычно оцениваются в условиях нулевой подготовки, без явного обучения на тестовом наборе данных, чтобы определить их общие возможности.

В этой статье показывается, насколько легко манипулировать результатами бенчмарков и предлагаются рекомендации по поддержанию честности оценки.

Проблема с бенчмарками

Часто бенчмарки не отражают полезность моделей в реальных сценариях. Самая новая модель Google, Gemini Ultra, набирает 90,04% в MMLU. Хотя это впечатляющий результат, при более внимательном рассмотрении методики оценки, становится понятно, что это CoT@32 (цепочка мыслей с 32 образцами). Это означает, что нам нужно сделать 32 попытки, чтобы достичь точности 90%! Большинство из нас ожидают точного ответа с первой попытки, особенно при взаимодействии с чат-ботом.

Технический доклад Google по Gemini. [1]

К сожалению, эта проблема является лишь вершиной айсберга в оценке LLM-моделей.

В машинном обучении модели обычно оцениваются путем измерения их производительности на тестовом наборе данных, который не использовался в процессе обучения. Обычно этот процесс позволяет получить неискаженную оценку того, как модель будет обобщать данные на новых данных.

Утечка оценок бенчмарков и контаминация данных – это два термина, обозначающих волнующую проблему: когда тестовые данные каким-то образом просачиваются в предварительные данные обучения LLM-моделей, что приводит к завышенной производительности. Это делает сравнение между LLM-моделями несправедливым и…