Открывая секреты успеха данных в CLIP представляем MetaCLIP для оптимизированного предварительного обучения язык-изображение’.
Раскрываем секреты успеха в CLIP представляем оптимизированное предварительное обучение язык-изображение с MetaCLIP
В последние годы произошли исключительные прогрессивные достижения в области искусственного интеллекта, с появлением множества новых передовых моделей, особенно в области NLP и Компьютерного зрения. CLIP – это нейронная сеть, разработанная OpenAI, обученная на массовом наборе данных из пар текст-изображение. Она помогла продвинуть множество исследований в области компьютерного зрения и поддержала современные системы распознавания и генеративные модели. Исследователи считают, что эффективность работы CLIP обусловлена данными, на которых она была обучена, и они полагают, что раскрытие процесса курирования данных позволит создавать даже более эффективные алгоритмы.
В этом исследовательском докладе исследователи попытались сделать подход к курированию данных CLIP доступным для публики и представили Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP берет неорганизованные данные и метаданные, полученные из концепций CLIP, создает сбалансированный поднабор и обеспечивает сбалансированное распределение подмножества по метаданным. По сравнению с данными CLIP, MetaCLIP показывает лучшие результаты на нескольких тестах при применении к набору данных CommonCrawl с 400 миллионами пар изображений и текста.
Авторы этой работы применяют следующие принципы для достижения своей цели:
- Построение шестиугольных карт с использованием H3 и Plotly Подробное руководство
- Как написать экспертные подсказки для ChatGPT (GPT-4) и других языковых моделей
- CI/CD Пайплайны для приложений обработки данных на Azure Часть 1 Контейнерные экземпляры
- Исследователи сначала составляют новый набор данных из 400 миллионов пар изображений и текста, полученных из разных интернет-источников.
- С использованием подстрокового сопоставления они выстраивают соответствие между парами изображений и текста и записями метаданных, что эффективно ассоциирует неструктурированный текст с структурированными метаданными.
- Все тексты, связанные с каждой записью метаданных, группируются в списки, создавая отображение от каждого элемента до соответствующих текстов.
- Затем связанный список субдискретизируется с обеспечением более сбалансированного распределения данных, делая его более универсальным для предварительного обучения.
- Для формализации процесса курирования они представляют алгоритм, направленный на повышение масштабируемости и сокращение сложности в пространстве.
MetaCLIP курирует данные, не используя изображения напрямую, но все равно улучшает выравнивание визуального контента, контролируя качество и распределение текста. Процесс подстрокового сопоставления увеличивает вероятность того, что текст будет содержать упоминание сущностей на изображении, что повышает шансы на нахождение соответствующего визуального контента. Кроме того, балансировка благоприятствует атрибутам с низким количеством данных, которые могут иметь более разнообразный визуальный контент, чем элементы с высоким количеством данных.
Для экспериментов исследователи использовали две группы данных – одну для оценки цели в 400 миллионов пар изображений и текста, и другую для масштабирования процесса курирования. Как уже упоминалось, MetaCLIP показывает лучшие результаты на наборе данных CommonCrawl с 400 миллионами точек данных по сравнению с CLIP. Кроме того, MetaCLIP превосходит CLIP по безотказной классификации ImageNet с использованием ViT-моделей разных размеров.
MetaCLIP достигает точности 70,8% при безотказной классификации ImageNet с использованием модели ViT-B, в то время как CLIP достигает точности 68,3%. MetaCLIP также достигает точности 76,2% при использовании модели ViT-L, в то время как CLIP достигает точности 75,5%. Увеличение объема тренировочных данных до 2,5 миллиарда пар изображений и текста с использованием того же бюджета обучения и схожего распределения дополнительно улучшает точность MetaCLIP до 79,2% для модели ViT-L и 80,5% для модели ViT-H. Это беспрецедентные результаты для безотказной классификации ImageNet.
В заключение, в попытке понять процесс курирования данных CLIP компании OpenAI, чтобы его высокую производительность можно было воспроизвести, авторы этой статьи представили MetaCLIP, который превосходит данные CLIP на нескольких тестах. Это достигается MetaCLIP с помощью подстрокового сопоставления для выравнивания пар изображений и текста с записями метаданных и субдискретизации связанного списка для обеспечения более сбалансированного распределения данных. Это делает MetaCLIP предвещающим новым подходом к курированию данных и имеющим потенциал для создания еще более эффективных алгоритмов.