Крупнейшая коллекция метрик LLM MEGAVERSE

LLM MEGAVERSE огромная коллекция метрик в одном месте

Теперь бенчмаркинг охватывает 81 язык, а также 2 мультимодальных набора данных

Краткий обзор исследования, опубликованного Microsoft’s Sunayana Sitaram.

TLDR:

С развитием LLMs, становится необходимым поддерживать возможности оценки их производительности для разных модальностей, языков и положений в оценке.

Microsoft опубликовала последний набор бенчмарков: MEGAVERSE

Он включает 22 набора данных, 81 язык и 2 мультимодальных набора данных.

Другие важные результаты исследования:

Тестирование бенчмарков было разработано для английского языка. Самая большая модель, которую мы оценили, GPT4 (OpenAI, 2023), приближается, но в большинстве случаев не превосходит производительность настроенных моделей таких, как TULRv6 (Patra et al., 2023). GPT4 показывает худшую производительность в скриптах не на латинице и для языков с недостаточными ресурсами.

Бенчмаркинг ставит пять новых SOTA LLM-моделей:

  • PaLM2 (Google, 2023)
  • Llama2 (3 варианта) (Touvron et al., 2023) и
  • LLaVA-v1.5 (Liuet al., 2023a)
  • GPT4
  • GPT-3.5-Turbo

Мультимодальные данные

  • Модель LLaVA-v1.5 (Liu et al., 2023a)
  • два новых мультиязыковых мультимодальных набора данных

Ранее созданные бенчмарки

BIG-bench Srivastava et al. (2023) содержит 204 задачи, тестирует несколько языков

Целостная оценка языковых моделей (HELM) Liang et al. (2022), включает (задачи, домены и языки) и метрики (например, точность, калибровка, токсичность), включает 30 языковых моделей в 42 сценариях и 7 метриках.

BUFFET (Asai et al., 2023) включает 54 языка на 15 наборах данных