К несубъективной оценке больших языковых моделей
Объективная оценка широких языковых моделей
Как утечка оценок и контаминация данных подрывают оценку LLM-моделей
“Наша новая LLM превосходит GPT в каждом тесте!”
Сегодня все чаще можно услышать смелые заявления вроде этой, ведь гипер превышает все границы. Каждую неделю появляются новые модели, и в настоящее время каждый пытается конкурировать с GPT-4, который все еще является самой мощной LLM-моделью.
Бенчмаркинг является ключевой частью оценки прогресса в больших моделях естественного языка.
Бенчмарки вроде MMLU и HellaSwag стали стандартом для оценки языковых моделей по таким навыкам, как логическое мышление и понимание. Оценочные показатели дают представление о прогрессе, и новые передовые результаты приветствуются как прорывы. LLM-модели обычно оцениваются в условиях нулевой подготовки, без явного обучения на тестовом наборе данных, чтобы определить их общие возможности.
- Генеративное ИИ к 2024 году и далее взгляд в будущее
- Наброски будущего исследований и изучения табличных данных
- Добавьте одну строку SQL для оптимизации ваших таблиц BigQuery
В этой статье показывается, насколько легко манипулировать результатами бенчмарков и предлагаются рекомендации по поддержанию честности оценки.
Проблема с бенчмарками
Часто бенчмарки не отражают полезность моделей в реальных сценариях. Самая новая модель Google, Gemini Ultra, набирает 90,04% в MMLU. Хотя это впечатляющий результат, при более внимательном рассмотрении методики оценки, становится понятно, что это CoT@32 (цепочка мыслей с 32 образцами). Это означает, что нам нужно сделать 32 попытки, чтобы достичь точности 90%! Большинство из нас ожидают точного ответа с первой попытки, особенно при взаимодействии с чат-ботом.
К сожалению, эта проблема является лишь вершиной айсберга в оценке LLM-моделей.
В машинном обучении модели обычно оцениваются путем измерения их производительности на тестовом наборе данных, который не использовался в процессе обучения. Обычно этот процесс позволяет получить неискаженную оценку того, как модель будет обобщать данные на новых данных.
Утечка оценок бенчмарков и контаминация данных – это два термина, обозначающих волнующую проблему: когда тестовые данные каким-то образом просачиваются в предварительные данные обучения LLM-моделей, что приводит к завышенной производительности. Это делает сравнение между LLM-моделями несправедливым и…