Meta AI выпускает BELEBELE первую оценочную метрику параллельного понимания чтения для 122 языков

Meta AI выпускает BELEBELE - первая метрика для оценки параллельного понимания чтения на 122 языках.

Значительной проблемой при оценке способностей многоязыковых моделей в понимании текста является отсутствие высококачественных одновременных стандартов оценки. Существуют широко охватывающие наборы данных обработки естественного языка, такие как FLORES-200, хотя они в основном используются для машинного перевода. Несмотря на то, что понимание и генерация текстовых сервисов используются более чем в 100 языках, отсутствие помеченных данных является значительным препятствием для создания эффективных систем на большинстве языков.

Для успешной разработки систем обработки естественного языка для языков с недостаточными ресурсами требуется значительное научное исследование, которое выходит за рамки LLM. Хотя многие подходы моделирования утверждают, что они являются языково-независимыми, их применимость к широкому спектру типов явлений часто проверяется только на небольшом подмножестве языков.

Новое исследование Meta AI, Abridge AI и Reka AI представляет BELEBELE, ключевой показатель оценки систем понимания естественного языка на 122 различных языковых разновидностях. Каждый из 488 параграфов в наборе данных имеет соответствующие вопросы с выбором ответа в общей сложности 900 вопросов. Вопросы различают модели с разными уровнями компетентности в понимании языка и были созданы с заботой. Вопросы разработаны таким образом, чтобы поощрять обобщенные модели NLU и намеренно наказывать предвзятые модели, хотя они не требуют высоких знаний или рассуждений. Вопросы, заданные на английском языке, могут быть точно отвечены людьми. Разнообразные выходы моделей указывают на то, что это дискриминационная задача NLU, подобная известным бенчмаркам LLM, таким как MMLU.

Система BELEBELE является первой своего рода и параллельна на всех языках. Это позволяет впервые прямое сравнение производительности моделей на разных языках. Набор данных включает 29 письменных систем и 27 языковых семей, представляющих различные возможности использования ресурсов и языковое разнообразие. Один из первых бенчмарков обработки естественного языка (NLP) для романизованной версии хинди, урду, бенгали, непали и сингальского основан на этих семи языках, написанных двумя разными письменными системами.

Параллельная природа набора данных позволяет оценивать межъязыковые текстовые представления в различных межъязыковых сценариях, и его можно использовать для оценки как монолингвальных, так и многоязыковых моделей. Задача может быть оценена с помощью полной донастройки путем сборки набора данных для обучения из сопоставимых наборов данных вопросов и ответов. Исследователи используют множество моделей с маскировкой языка (MLM) для донастройки переводов между языками и между английским и другими языками. Для сравнения различных моделей для LLM используются пятикратное обучение в контексте и нулевое обучение (внутри языка и тестирование перевода).

Результаты показывают, что, хотя английские LLM могут пройти далеко и обобщаться на более чем 30 языков, модели, обученные на VoAGI и языках с недостаточными ресурсами, наиболее выигрывают от большого размера словаря и сбалансированных предварительных данных.

Команда надеется, что их исследование поможет улучшить существующие архитектуры моделей и методы обучения, прояснив, как они обрабатывают многоязыковые данные.