Заглянув внутрь шкатулки Пандоры раскрываем скрытые сложности наборов данных языковой модели с помощью «Что в моем большом объеме данных»? (WIMBD)

Все проблемы языковых моделей раскрываем тайны наборов данных с помощью метода 'Что в моем большом объеме данных' (WIMBD)

Машинное обучение основано на данных в качестве строительного блока. Новые наборы данных являются ключевым фактором в исследованиях и разработке инновационных моделей, так как они способствуют прогрессу в области. Тренировка более крупных моделей на больших наборах данных привела к значительному росту стоимости вычислений экспериментов ИИ с течением времени. В настоящее время некоторые из самых влиятельных наборов данных создаются путем извлечения текста из всего доступного в общественном доступе интернета. Некоторые из самых больших баз данных, когда-либо созданных, обычно вводятся без какой-либо документации о их содержимом, только с объяснением о том, как они были созданы. 

Это критическое различие, поскольку модели в настоящее время обучаются на больших текстовых корпусах без какого-либо знания о концепциях, темах, токсичности или личной информации, которая может быть включена. В то же время, языковые модели теперь широко используются ежедневно людьми по всему миру. Поскольку эти системы искусственного интеллекта имеют прямое влияние на жизнь людей, теперь критически важно понимать как их преимущества, так и недостатки. Модели могут учиться только на данных, на которых они были обучены, но огромное количество и отсутствие возможности публичного доступа к предварительным корпусам делает их сложными для анализа. Несколько значительных измерений обычно являются центром работы, оценивающей содержимое веб-масштабных корпусов, и, что самое важное, требуется дополнительная работа по анализу нескольких наборов данных по тем же измерениям. 

В результате перед принятием решения о том, какой набор данных или наборы данных использовать, практикующим машинное обучение требуются более полезные методы для описания отличий между ними. В этом исследовании исследователи из Института Исследования Аллена, Университета Вашингтона и Калифорнийского университета предлагают использовать набор инструментов под названием WIMBD: WHAT’S IN MY BIG DATA, который помогает практикующим быстро исследовать масштабные языковые наборы данных для изучения содержимого больших текстовых корпусов. Кроме того, они используют эту технологию для предоставления нескольких первых сопоставимых мер по нескольким веб-масштабным наборам данных. 

WIMBD состоит из двух частей: (1) инструмент поиска, основанный на индексе Elasticsearch (ES), который позволяет программно найти документы, содержащие запрос. ES – это поисковая система, которая позволяет находить строки внутри корпуса вместе с текстами, в которых они встречались, и сколько раз. (2) Возможность подсчета, построенная с помощью MapReduce, которая позволяет быстро итерироваться по всему набору данных и извлекать соответствующие данные, такие как распределение длины символов документа, дубликаты, количество доменов, определение личной идентифицирующей информации (PII) и многое другое. Код для WIMBD является открытым и доступным по адресу github.com/allenai/wimbd. Он является расширяемым и может использоваться для индексирования, подсчета и анализа различных корпусов в большом масштабе. В рамках этого исследования было проведено 16 исследований на 10 различных корпусах, включая C4, The Pile и RedPajama, которые используются для обучения языковых моделей с использованием этих техник. 

Они классифицируют свои анализы на четыре категории:

  1. Статистика данных (например, число токенов и распределение доменов).
  2. Качество данных (например, измерение дубликатов документов и наиболее частых n-грамм).
  3. Измерения, связанные с сообществом и обществом (например, измерение загрязнения и обнаружение личной идентификационной информации).
  4. Анализ сравнения корпусов (например, проверка перекрытия документов и сравнение наиболее распространенных n-грамм).

На рисунке 1 представлена наглядная схема WIMBD. В их работе представлено множество исследований распределения данных и аномалий. 

Рисунок 1: Обзор WIMBD. Они предоставляют две основные функции, Count и Search, которые обеспечивают быструю обработку и доступ к обширным текстовым корпусам, позволяя проводить множество анализов.

Исследование распределения длин документов, например, позволяет обнаружить аномалии, когда некоторые длины чрезмерно представлены по сравнению с близкими длинами; эти аномалии часто связаны с текстом, созданным почти вдвое из шаблонов или документами, которые были специально обрезаны до определенной длины символов. Другим примером являются последовательности знаков препинания, часто встречающиеся n-граммы. Например, в The Pile наиболее распространенный 10-грам является тире (‘-‘) повторяющееся десять раз. WIMBD предоставляет практические идеи для создания более качественных корпусов, а также описания и привязки поведения модели к обучающим данным. Wimbd.apps.allenai.org имеет интерактивное демо, демонстрирующее некоторые из их анализов, и выпущено в связи с этой публикацией.