Фондант ИИ выпускает набор данных Fondant-25M изображений и текстовых пар с лицензией Creative Commons.

Фондант ИИ представляет набор данных Fondant-25M изображений и текстовых пар с лицензией Creative Commons.

“`

Обработка и анализ больших объемов данных называется масштабной обработкой данных. Она включает в себя извлечение ценной информации, принятие обоснованных решений и решение сложных задач. Это важно в различных областях, включая бизнес, науку, здравоохранение и т. д. Выбор инструментов и методов зависит от конкретных требований задачи обработки данных и доступных ресурсов. Для масштабной обработки данных часто используются языки программирования, такие как Python, Java и Scala. В этом контексте также полезны фреймворки, такие как Apache Flink, Apache Kafka и Apache Storm.

Исследователи создали новую свободно распространяемую платформу, называемую Fondant, чтобы упростить и ускорить масштабную обработку данных. В ней есть различные инструменты для загрузки, изучения и обработки данных. Она также включает компоненты для загрузки через URL-адреса и загрузки изображений.

Текущая проблема с генеративным искусственным интеллектом, таким как Stable Diffusion и Dall-E, заключается в том, что он обучен на сотни миллионов изображений из общедоступного Интернета, включая защищенные авторским правом работы. Это создает юридические риски и неопределенности для пользователей этих изображений и является несправедливым по отношению к правообладателям, которые могут не желать, чтобы их проприетарные работы воспроизводились без согласия.

Для решения этой проблемы исследователи создали конвейер обработки данных для создания 500 миллионов наборов данных изображений с лицензией Creative Commons для обучения моделей генерации изображений на базе диффузии. Конвейеры обработки данных – это шаги и задачи, предназначенные для сбора, обработки и перемещения данных из одного источника в другой, где они могут быть сохранены и проанализированы для различных целей.

Создание пользовательских конвейеров обработки данных включает несколько шагов, и конкретный подход может варьироваться в зависимости от ваших источников данных, требований к обработке и используемых инструментов. Исследователи используют метод создания блоков для создания пользовательских конвейеров. Они разработали конвейеры Fondant для смешивания повторно используемых и пользовательских компонентов. Они также развернули его в рабочей среде и настроили автоматизацию для регулярной обработки данных.

Fondant-cc-25m содержит 25 миллионов URL-адресов изображений с их информацией о лицензии Creative Commons, которые можно легко получить одним действием! Исследователи выпустили подробную пошаговую программу установки для локальных пользователей. Чтобы выполнить конвейеры локально, пользователи должны иметь установленный Docker на своих системах с выделением как минимум 8 ГБ оперативной памяти для Docker окружения.

Поскольку выпущенные наборы данных могут содержать конфиденциальную личную информацию, исследователи специально создавали наборы данных таким образом, чтобы включать только общедоступную, неперсональную информацию в поддержку проведения и публикации их открытых исследований. Они говорят, что процесс фильтрации набора данных находится в процессе и что они готовы принять вклад от других исследователей для создания анонимных конвейеров для проекта. Исследователи заявляют, что в будущем они хотят добавить различные компоненты, такие как дедупликация на основе изображений, автоматическое создание заголовков, оценка визуального качества, обнаружение водяных знаков, обнаружение лиц, обнаружение текста и многое другое!

“`