Новое исследование AI представляет SWIM-IR масштабный синтетический многоязычный набор данных для поиска с 28 миллионами обучающих пар на 33 языках.

AI представил новое исследование SWIM-IR - масштабный синтетический набор данных на 33 языках для поиска с 28 миллионами обучающих пар'.

Исследователи из Google Research, Google DeepMind и Университета Ватерлоо представляют SWIM-IR – синтетический набор данных для обучения моделей многократного извлечения на 33 языках, который решает проблему ограниченного количества пар “запрос-ответ” с человеческой разметкой в многоязыковом поиске. Используя метод SAP (summarize-then-ask), SWIM-IR разработан для синтетической донастройки моделей многократного извлечения без человеческого надзора. Модели SWIM-X, обученные на SWIM-IR, конкурентноспособны с моделями многократного извлечения, получившими надзор от человека, на различных бенчмарках, включая XOR-Retrieve, XTREME-UP, и MIRACL.

Исследование рассматривает ограничения моделей многократного извлечения. Существующие модели многократного извлечения сталкиваются с проблемами из-за ограниченных или неравномерных данных для обучения. SWIM-IR использует метод SAP для помощи в формулировке информативных запросов на целевом языке. Модели SWIM-X, обученные на SWIM-IR, демонстрируют конкурентоспособную производительность с моделями, получившими надзор от человека, на различных бенчмарках, подчеркивая потенциал синтетических наборов данных в качестве экономически эффективной альтернативы человеческим данным для обучения моделей многократного извлечения на нескольких языках.

Исследование рассматривает ограниченный успех моделей многократного извлечения на неанглийских языках, связывая его с недостаточностью обучающих данных с надзором от человека. Этот синтетический набор данных позволяет производить донастройку моделей многократного извлечения на различных языках, оцениваемых на бенчмарках, таких как XOR-Retrieve, XTREME-UP и MIRACL. Результаты демонстрируют эффективность SWIM-IR в замене дорогостоящих данных с надзором от человека, обеспечивая конкурентоспособную производительность моделей многократного извлечения на нескольких языках по сравнению с моделями, получившими надзор от человека.

SWIM-IR – это синтетический набор данных для обучения многократного извлечения, охватывающий 33 языка, созданный с использованием метода SAP. Используя SWIM-IR, в исследовании исследуется синтетическая донастройка моделей многократного извлечения на различных языках, адаптируя модель Dense Passage Retrieval (DPR). Используя фреймворк T5X Retrieval, она реплицирует базовые линии mContriever и mDPR по методу нулевого обучения на основе мультиязычного чекпоинта T5-base и донастройки на английском наборе данных MS MARCO. Предварительное обучение на наборе данных mC4 и применение контрастной потери для отрицательных примеров в пакете, исследователи используют модель PaLM 2 Small для генерации запросов на разных языках.

Модели SWIM-X, обученные на синтетических данных SWIM-IR, демонстрируют конкурентоспособную производительность в задачах многократного извлечения на разных языках. Модель SWIM-X (7M) превосходит модель mContriever-X, наилучшую донастроенную модель, на 7,1 пункта в бенчмарке XOR-Retrieve по показателю Recall5kt. Даже базовая модель с ограниченным бюджетом, SWIM-X (500k), превосходит модель mContriever-X на 3,6 пункта. Модель SWIM-X (180K) успешно конкурирует в бенчмарке MIRACL, превосходя лучшую модель нулевого обучения на 6,6 пункта по показателю nDCG10, хотя не доходит до модели mContriever-X, которая использует пары с человеческой разметкой с трудными отрицательными примерами. Синтетические базовые модели SWIM-X (120K) и SWIM-X (120K)MT показывают многообещающие результаты в сравнении с существующими моделями на основе контролируемого обучения по показателю Recall5kt. Исследование подчеркивает важность оптимизированных методов обучения, включая лучший отбор сложных отрицательных примеров с использованием SWIM-IR, для дальнейшего улучшения производительности синтетических моделей.

Исследование выявляет ограничения набора данных SWIM-IR, включая отсутствие контекста, смешение языков, качество и длину текстовых фрагментов, а также фактические несоответствия при генерации текста. Исследование признает, что модели LLM могут создавать тексты, которым не хватает достаточного обоснования в источниках знаний, создавая риски передачи неверной информации и генерации неверных выводов. Хотя эти ограничения могут влиять на качество и точность создаваемых запросов, они не оказывают прямого влияния на последующую задачу многократного извлечения на нескольких языках. Однако исследование не подробно обсуждает ограничения метода SAP или процесса донастройки моделей.

SWIM-IR – это синтетический набор данных для обучения многократного извлечения на различных языках, созданный с использованием метода SAP для генерации информативных запросов на разных языках. Содержащий 28 миллионов пар “запрос-ответ” на 33 языках, SWIM-IR облегчает донастройку моделей многократного извлечения на нескольких языках, не требуя обучения с человеческим надзором. Полученные модели SWIM-X демонстрируют конкурентоспособную производительность в задачах многократного извлечения на нескольких языках, превосходя существующие модели по показателям recall и mean reciprocal rank на межъязыковых и одноязыковых бенчмарках. Отмечается потенциал SWIM-IR в качестве экономически эффективной альтернативы дорогостоящим данным с человеческой разметкой для развития надежных моделей многократного извлечения на нескольких языках.