Познакомьтесь с CommonCanvas открытой моделью диффузии, которая была обучена с использованием изображений Creative-Commons.

Познакомьтесь с CommonCanvas открытая модель диффузии, обученная на изображениях Creative-Commons

Искусственный интеллект значительно продвинулся в области генерации изображений по тексту в последние годы. Превращение письменных описаний в визуальные представления имеет множество применений, от создания контента до помощи слепым и рассказа историй. Исследователи сталкиваются с двумя крупными препятствиями: отсутствием качественных данных и авторскими правами в отношении наборов данных, которые извлекаются из интернета.

В недавнем исследовании команда ученых предложила идею создания набора данных изображений с лицензией Creative Commons (CC) и использования его для обучения моделей открытого диффузионного процесса, которые могут превзойти Stable Diffusion 2 (SD2). Для этого нужно преодолеть две основные преграды, а именно:

  1. Отсутствие подписей: Хотя фотографии с высоким разрешением и лицензией CC имеют открытую лицензию, в них часто отсутствуют текстовые описания, то есть подписи, необходимые для обучения генеративной модели текст-изображение. В отсутствие подписей, модели сложно понять и создать визуальные представления на основе текстового ввода.
  1. Нехватка фотографий CC: В сравнении с более крупными проприетарными наборами данных, такими как LAION, фотографии с лицензией CC реже встречаются, несмотря на их значительное количество. Возникает вопрос о том, есть ли достаточно данных для успешного обучения моделей высокого качества.

Команда использовала технику переноса обучения и создала отличные синтетические подписи с помощью предварительно обученной модели, а затем сопоставила их с тщательно подобранным набором фотографий CC. Этот метод прост и использует способность модели генерировать текст из фотографий или других входных данных. Для обучения генеративных моделей, которые переводят слова в визуальные представления, был создан набор данных фотографий и выдуманных подписей.

Для борьбы с второй проблемой команда создала тренировочный рецепт, который эффективен как в расчете затрат на вычисления, так и в использовании данных. Для достижения такого же качества, как у существующих моделей SD2, требуется всего около 3% данных, что примерно соответствует 70 миллионам примеров, которые сначала использовались для обучения SD2. Это подтверждает наличие достаточного количества фотографий с лицензией CC для успешного обучения моделей высокого качества.

Команда обучила несколько моделей текст-изображение с использованием имеющихся данных и эффективной процедуры обучения. Вместе эти модели называются семейством CommonCanvas и являются значительным прогрессом в области генеративных моделей. Они могут генерировать визуальные результаты, качество которых сравнимо с SD2.

Самая большая модель в семействе CommonCanvas, обученная на наборе данных CC разумного размера по сравнению с набором данных LAION, позволяет достичь результатов, сопоставимых с SD2 при оценке людьми. Несмотря на ограничения размера набора данных и использование искусственных подписей, метод эффективен в создании качественных результатов.

Команда подвела свои основные вклады следующим образом.

  1. Команда использовала метод переноса обучения под названием “телепроникальный” для создания отличных подписей к фотографиям с открытой лицензией Creative Commons (CC), которые изначально не имели подписей.
  1. Они предоставили набор данных под названием CommonCatalog, который включает около 70 миллионов фотографий с лицензией CC, выпущенных под открытой лицензией.
  1. Набор данных CommonCatalog используется для обучения серии моделей латентного диффузионного процесса (LDM). Вместе эти модели называются CommonCanvas, и они конкурентоспособны как качественно, так и количественно по сравнению с базовым SD2.
  1. Исследование применяет ряд оптимизаций обучения, что позволяет ускорить процесс обучения базовой модели SD2 примерно в три раза.
  1. Для стимулирования сотрудничества и дальнейшего исследования команда предоставила обученную модель CommonCanvas, фотографии CC, искусственные подписи и набор данных CommonCatalog бесплатно на GitHub.