Это исследование AI раскрывает ‘Кандинский1’ новый подход в генерации текста в изображение с использованием скрытой диффузии с выдающимися оценками FID на COCO-30K

Новый подход AI в генерации текста на изображении исследование 'Кандинский1' с применением скрытой диффузии и выдающимися оценками FID на COCO-30K

В последние годы компьютерное зрение и генеративное моделирование наблюдали замечательный прогресс, приводящий к улучшению генерации текста в изображение. Различные генеративные архитектуры, включая модели, основанные на диффузии, сыграли решающую роль в улучшении качества и разнообразия сгенерированных изображений. В этой статье рассматриваются принципы, особенности и возможности Кандинского, мощной модели с 3,3 миллиарда параметров, и подчеркивается ее первоклассная производительность в качестве генерации изображений, которую можно измерить.

Модели генерации текста в изображение развились от авторегрессионных подходов с артефактами уровня содержания до моделей на основе диффузии, таких как DALL-E 2 и Имаджен. Эти модели, относящиеся к уровню пикселей и скрытого уровня, превосходят в генерации изображений GAN-модели по точности и разнообразию. Они интегрируют текстовые условия без использования адверсариального обучения, что демонстрируется моделями, такими как GLIDE и eDiff-I, которые создают изображения низкого разрешения и масштабируют их с использованием моделей диффузии супер-разрешения. Эти достижения преобразовали генерацию текста в изображение.

Исследователи из AIRI, Сколтеха и Sber AI представляют Кандинский, новую модель генерации текста в изображение (Кандинский), объединяющую техники скрытой диффузии с моделями приоритета изображений. Кандинский использует измененную реализацию MoVQ в качестве автоэнкодера изображений и отдельно тренирует модель приоритета изображения для отображения текстовых вложений в вложения изображений CLIP. Их метод предоставляет систему демонстрации в различных режимах генерации и предоставляет исходный код и контрольные точки модели.

Их подход включает скрытую архитектуру диффузии для синтеза текста в изображение, используя модели приоритета изображений и скрытую диффузию. Он использует подход с приоритетом изображения, который интегрирует диффузию и линейные отображения между текстом и вложениями изображения с использованием вложений текста CLIP и XLMR. Их модель состоит из трех ключевых этапов: кодирование текста, отображение вложений (приоритет изображения) и скрытая диффузия. Реализуется поэлементная нормализация визуальных вложений на основе статистики полного набора данных, что ускоряет сходимость процесса диффузии.

Архитектура Кандинского показывает отличную производительность в генерации текста в изображение, достигая впечатляющего значения FID – 8,03 на валидационном наборе данных COCO-30K с разрешением 256×256. Конфигурация с линейным приоритетом дала лучший показатель FID, указывающий на потенциальную линейную связь между визуальными и текстовыми вложениями. Профессионализм их модели демонстрируется обучением “приоритета кошек” на подмножестве изображений кошек, что блестяще справилось с генерацией изображений. В целом, Кандинский конкурирует с передовыми моделями в синтезе текста в изображение.

Латентная диффузная система Кандинский является передовым в области генерации и обработки изображений. Их исследования подробно исследуют выбор дизайна приоритета изображений, с линейным приоритетом, который показывает перспективы и намекает на линейную связь между визуальными и текстовыми вложениями. Легкодоступные интерфейсы, такие как веб-приложение и бот Telegram, обеспечивают доступность. Направление будущих исследований включает использование передовых кодировщиков изображений, улучшение архитектур UNet, улучшение текстовых подсказок, создание изображений более высокого разрешения и изучение функций, таких как локальное редактирование и контроль на основе физики. Исследователи подчеркивают необходимость решения проблем с содержимым, предлагая модерацию в реальном времени или надежные классификаторы для устранения нежелательных результатов.