Познакомьтесь с DenseDiffusion обучающаяся сама по себе техника искусственного интеллекта для работы с плотными подписями и манипуляциями компоновки в генерации текста в изображение.
DenseDiffusion - самообучающаяся техника искусственного интеллекта для работы с плотными подписями и манипуляциями компоновки в генерации текста в изображение.
Недавние достижения в моделях текст-изображение привели к созданию сложных систем, способных генерировать качественные изображения на основе кратких описаний сцен. Однако эти модели сталкиваются с трудностями при работе с сложными подписями, что часто приводит к опущению или смешиванию визуальных атрибутов, связанных с различными объектами. Термин “dense” в данном контексте основан на концепции плотного описания, где отдельные фразы используются для описания конкретных областей на изображении. Кроме того, пользователи сталкиваются с трудностями в точном определении расположения элементов на сгенерированных изображениях только по текстовым подсказкам.
Несколько недавних исследований предложили решения, позволяющие пользователям контролировать пространственное расположение путем обучения или уточнения моделей текст-изображение с использованием макетов. В то время как определенные подходы, такие как “Make-aScene” и “Latent Diffusion Models”, создают модели с нуля с использованием как текстовых, так и макетных условий, другие параллельные методы, такие как “SpaText” и “ControlNet”, добавляют дополнительные пространственные контроли к существующим моделям текст-изображение путем донастройки. К сожалению, обучение или донастройка модели может быть вычислительно затратной. Кроме того, модель требует повторного обучения для каждого нового условия пользователя, домена или базовой модели текст-изображение.
Исходя из вышеизложенных проблем, предлагается новая техника обучения без тренировок, названная DenseDiffusion, которая позволяет работать с плотными подписями и выполнять манипуляции с макетом.
- Разверните самообслуживание вопросно-ответной системы с помощью решения QnABot на AWS, основанного на Amazon Lex с Amazon Kendra и большими языковыми моделями.
- Дисбаланс классов от случайной перебалансировки до ROSE
- Сравнение фреймворков глубокого обучения
Прежде чем представить основную идею, позвольте мне кратко рассказать, как работают модели диффузии. Модели диффузии генерируют изображения путем последовательных шагов удаления шума, начиная с случайного шума. Сети прогнозирования шума оценивают добавленный шум и пытаются создать более четкое изображение на каждом шаге. Недавние модели сокращают количество шагов удаления шума для более быстрых результатов без значительного ухудшения качества сгенерированного изображения.
Два важных блока в современных моделях диффузии – это слои само-внимания и перекрестного-внимания.
Внутри слоя само-внимания промежуточные признаки также функционируют как контекстные признаки. Это позволяет создавать глобально согласованные структуры, устанавливая связи между токенами изображения в разных областях. В то же время слой перекрестного-внимания адаптируется на основе текстовых признаков, полученных из входного текстового описания, используя текстовый энкодер CLIP для кодирования.
Возвращаясь к основной идее DenseDiffusion, это переработанный процесс модуляции внимания, который представлен на рисунке ниже.
Изначально промежуточные признаки предварительно обученной модели диффузии текст-изображение анализируются, чтобы выявить существенную корреляцию между макетом сгенерированного изображения и картами само-внимания и перекрестного-внимания. Исходя из этого понимания, промежуточные карты внимания динамически корректируются на основе макетных условий. Кроме того, подход предполагает учет исходного диапазона оценки внимания и донастройку степени модуляции на основе площади каждого сегмента. В представленной работе авторы демонстрируют возможности DenseDiffusion для улучшения производительности модели “Stable Diffusion” и превосходства над несколькими моделями композиционной диффузии в плотных подписях, текстовых и макетных условиях и качестве изображения.
Примеры результатов, выбранные из исследования, изображены на рисунке ниже. Эти визуальные материалы предоставляют сравнительный обзор между DenseDiffusion и передовыми подходами.
Это было краткое описание DenseDiffusion, новой методики обучения ИИ без тренировок, которая позволяет работать с плотными подписями и выполнять манипуляции с макетом при синтезе текст-изображение.