Исследователи из Университета Орегона и Adobe представили CulturaX многоязычный набор данных с 6,3 трлн. токенов на 167 языках, разработанный специально для создания больших языковых моделей (LLM).

Исследователи из Университета Орегона и Adobe представили CulturaX - многоязычный набор данных с 6,3 трлн. токенов на 167 языках, созданный для больших языковых моделей (LLM).

“`html

Благодаря значительному улучшению современных достижений в широком спектре задач и открытию новых навыков, большие языковые модели (LLM) глубоко повлияли на исследования и применение NLP. Для преобразования входных текстов в векторы представления были исследованы модели только с кодировщиком; для создания текстов были изучены модели только с декодером; и для выполнения создания последовательности-последовательности были изучены модели с кодировщиком и декодером. Экспоненциальный рост размеров моделей и объемов данных для обучения, необходимых для максимальной производительности, является основной причиной удивительных возможностей LLM. Например, хотя модель BERT содержала всего несколько сотен миллионов параметров, современные модели, основанные на GPT, уже включают сотни миллиардов параметров.

Огромные размеры моделей и огромные объемы данных для обучения являются основными элементами в развитии больших языковых моделей (LLM) с потрясающими возможностями обучения. С развитием NLP LLM становятся все более доступными для широкой публики для продвижения дальнейших исследований и практического применения. Однако обычно обучающие наборы данных для этих LLM предоставляются только частично, особенно для самых новых моделей последнего поколения. Для создания качественных обучающих данных для LLM требуется обширная очистка и удаление дубликатов. Таким образом, необходимость в более открытом доступе к обучающим данным затрудняет возможность воспроизведения результатов и продвижения исследований в области галлюцинаций и исследования предвзятости в LLM. Эти трудности усугубляются в многопользовательских сценариях обучения недостаточным сбором и очисткой многопользовательских текстовых коллекций. В результате не существует хорошего набора открытых данных, которые можно использовать для обучения LLM на разных языках. CulturaX, огромный многопользовательский набор данных, включающий 6,3 трлн токенов на 167 языках, был разработан совместным усилием академиков из Университета Орегона и Adobe Research для решения этой проблемы. Для обеспечения высочайшего качества обучения модели набор данных проходит тщательный процесс очистки и удаления дубликатов. В этих процессах осуществляется определение языков в наборе данных, фильтрация набора данных с использованием URL, очистка набора данных с использованием метрик, улучшение документов и удаление дубликатов.

CulturaX проходит тщательную очистку и удаление дубликатов на уровне документа, чтобы обеспечить высочайшее качество обучения LLM на разных языках. Процедура очистки данных использует полный пайплайн для устранения неточной информации. Это требует исключения отвлекающих факторов, таких как неправильная идентификация языка, вредоносные данные и нелингвистический материал.

Основные особенности:

  • CulturaX – самый большой открытый многопользовательский набор данных, который был тщательно очищен и удалены дубликаты для использования в LLM и NLP приложениях.
  • CulturaX предоставляет многопользовательский, открытый и огромный набор данных с немедленно применимыми и высококачественными данными для обучения LLM, решающий множество проблем с текущими наборами данных.
  • В то время как существуют многопользовательские открытые наборы данных с текстовыми данными на разных языках, такие как mC4, их качество и масштаб не соответствуют требованиям эффективного обучения LLM, особенно генеративных моделей, таких как GPT. Как упоминалось во вступлении, ни mC4, ни OSCAR не обеспечивают размытое удаление дубликатов на уровне документа. Использование cld3 приводит к недостаточному определению языка для mC4, что является еще одним недостатком. В то время как CC100 содержит данные после 2018 года, BigScience ROOTS предоставляет только выборку данных для 46 языков.

Полный публичный выпуск CulturaX от HuggingFace поможет дальнейшему изучению многопользовательских LLM и их применениям. Подробнее здесь https://huggingface.co/datasets/uonlp/CulturaX

Вы должны посмотреть CulturaX, новый многопользовательский набор данных с текстовыми данными на 167 языках. Тщательный рабочий процесс очищает и удаляет дубликаты из набора данных, что приводит к 6,3 трлн токенов. В качестве огромного набора данных высокого качества CulturaX может быть использован для эффективного обучения LLM на разных языках. Эта информация доступна бесплатно для всех, и исследователи надеются, что она может вдохновить дальнейшие исследования и практическое использование приобретения языка.

“`