Together AI выпускает RedPajama v2 Открытый набор данных с 30 триллионами токенов для обучения больших языковых моделей.

Together AI представляет RedPajama v2 открытый набор данных с 30 триллионами токенов для обучения больших языковых моделей

Высококачественные данные являются неотъемлемой частью успеха передовых открытых LLM, таких как Llama, Mistral, Falcon, MPT и модели RedPajama. Однако из-за аномалий, возникающих при преобразовании HTML в обычный текст, источников общего низкого качества и пристрастий, присущих диффузии контента в Интернете, эти данные неочищены и не идеальны для прямого использования в обучении LLM. Сбор правильного набора данных и смеси данных является трудоемкой задачей, требующей много времени, ресурсов и денег. Несмотря на то, что вокруг этой инициативы было создано несколько сообщественных проектов, таких как C4, RedPajama-1T, Refinedweb (Falcon), Dolma (AI2) и SlimPajama, многие из них покрывают только подмножество обходов CommonCrawl и предлагают очень узкий метод фильтрации данных.

Исследователи из команды Together.ai выпустили RedPajama-1T в марте этого года, 5-тебабайтный набор данных, который был использован более 190 000 раз и использованы для фантастических целей. С 1 трлн токенов высокого качества на английском языке RedPajama-1Т был только началом. Исследователи шагнули дальше, выпустив RedPajama-V2, огромный онлайн-набор данных из 30 трлн токенов, самый крупный общедоступный набор данных, посвященный системам машинного обучения на основе обучения.

Команда верит, что RedPajama-Data-v2 станет хранилищем онлайн-данных, которые можно использовать в качестве основы для извлечения наборов данных высокого качества для обучения LLM и основы для глубокого исследования данных обучения LLM. Они утверждают, что охват CommonCrawl (84 обработанных дампов) является безупречным. Более того, они включают в себя более 40 аннотаций качества – результаты работы нескольких классификаторов машинного обучения по качеству данных, результаты минхэша, которые можно использовать для нечеткой дедупликации или эвристики. Разработчик LLM может использовать эти аннотации для быстрого и легкого создания своего собственного набора данных предварительного обучения путем нарезки и фильтрации общедоступных данных.

Основное внимание в RedPajama-V2 уделяется CommonCrawl. RedPajama-V2 создан с нуля на основе 84 обходов CommonCrawl и других общедоступных веб-данных. Этот набор данных включает в себя необработанные данные (обычный текст), более 40 аннотаций высокого качества и кластеры дедупликации.

Каждый обход CommonCrawl первоначально обрабатывается с помощью конвейера CCNet как первого шага при создании этого набора данных. Благодаря его минимальной обработке, этот конвейер хорошо сочетается с общей идеей сохранения максимального количества данных в форме обычного текста и позволяет моделировщикам в конвейере проводить свою фильтрацию и ресэмплинг. С помощью языкового фильтра CCNet мы включили только английский, французский, испанский, немецкий и итальянский в эту версию. Этап обработки генерирует сто миллиардов текстовых страниц.

В отношении разделов “голова” и “середина” исследователи вычисляют более 40 самых популярных аннотаций качества и текстовые документы, обработанные CCNet. Основная цель этих аннотаций – способствовать исследованиям их оптимального использования и предоставить разработчикам моделей, работающим вниз по потоку, возможность фильтровать или перевзвешивать набор данных в соответствии с их критериями. Кроме того, они надеются в будущем добавить больше аннотаций высокого качества при помощи сообщества.

Вместе с этими сигнатурами минхэша команда также выполняет точную дедупликацию, применяя фильтр Блума к хеш-дайджесту документа. Эти данные хранятся в отдельном файле аннотации качества, чтобы оригинальное недублированное распределение можно было восстановить для удобства проведения исследований в этой области.

RedPajama-v2 содержит 113 млрд. документов на английском, немецком, французском, испанском и итальянском языках и является результатом обработки 84 обходов CommonCrawl. Оценивается, что в хвостовой раздел остается около 80 млрд. документов, в то время как количество документов и токенов в разделах “голова” и “середина” определено до и после дедупликации. Количество токенов снижается на 60%, но количество документов снижается на 71%, что указывает на то, что статьи хвоста, как правило, короче.

После дедупликации документов головы+середины набор данных сокращается примерно на 40% при использовании фильтра Блума. Текстовые документы составляют основную часть набора данных, включая аннотации качества и кластеры дедупликации. Макет очень похож на то, что указано в CCNet. Более конкретно, страницы каждого обхода CommonCrawl разбиты на 5 тыс. фрагментов с ключом, указывающим на фрагмент, язык и категорию плотности (раздел).

Команда надеется вскоре расширить свой набор высококачественных аннотаций, чтобы включить такие вещи, как аннотации о загрязнении по сравнению с широко используемыми LLM-бенчмарками, аннотации моделирования тем и категоризации для каждого документа, а также любые дополнительные аннотации, которые вызывают интерес в сообществе.