Познакомьтесь с ScaleCrafter Разблокировка ультра-высокого разрешения синтеза изображений с предварительно обученными моделями диффузии

Познакомьтесь с ScaleCrafter разблокируйте синтез изображений в ультра-высоком разрешении с помощью предварительно обученных моделей диффузии

Подробнее о важности этого исследования, практические применения и преимущества.

Развитие техник синтеза изображений за последние годы вышло на новый уровень, вызывая большой интерес в академическом и промышленном мире. Модели генерации текста в изображение и устойчивой диффузии (SD) являются наиболее широко используемыми разработками в этой области. Хотя эти модели показали замечательные возможности, они в настоящее время могут производить изображения только с максимальным разрешением 1024 x 1024 пикселей, что является недостаточным для удовлетворения требований высоко разрешенных приложений, таких как реклама.

Проблемы возникают, когда пытаются создать изображения большего размера, чем обучающие разрешения, в основном с повторением объектов и деформацией архитектуры объектов. При использовании модели устойчивой диффузии для создания изображений с размерами 512 × 512 или 1024 x 1024, обученных на изображениях 512 x 512, дублирование объекта становится более проблематичным, поскольку увеличивается размер изображения.

В результирующей графике эти проблемы проявляются в основном как повторение объектов и неверная топология объектов. Существующие методы создания изображений с более высоким разрешением, такие как основанные на совместной диффузии техники и механизмы внимания, трудно адекватно решить эти проблемы. Исследователи рассмотрели элементы структуры архитектуры U-Net в моделях диффузии, определив важный элемент, вызывающий проблемы – ограниченные восприятием поля видимости сверточных ядер. В основном проблемы, такие как повторение объектов, возникают из-за того, что сверточные процедуры модели ограничены в своей способности видеть и понимать содержимое входных изображений.

Команда исследователей предложила ScaleCrafter для создания визуальных изображений высокого разрешения во время вывода. Он использует редиляцию, простое, но чрезвычайно мощное решение, которое позволяет моделям более эффективно обрабатывать изображения большего разрешения и с различным соотношением сторон, динамически изменяя сверточное поле восприятия в процессе создания изображения. Модель может улучшать согласованность и качество созданных изображений путем динамического настройки поля восприятия. Работа представляет два дополнительных преимущества: децентрализованная свертка и подавление шума в свободном от классификатора руководстве. С их помощью модель может производить фотографии с ультравысоким разрешением, до 4096 на 4096 пикселей. Этот метод не требует дополнительного обучения или стадий оптимизации, что делает его приемлемым решением для устранения проблем объединения и структурных проблем в синтезе изображений высокого разрешения.

В рамках этого исследования были проведены всесторонние тесты, которые показали, что предложенный метод успешно решает проблему повторения объектов и получает передовые результаты в создании изображений с более высоким разрешением, особенно в выявлении сложных текстурных деталей. Эта работа также подсвечивает возможность использования моделей диффузии, которые уже обучались на изображениях с низким разрешением, для генерации изображений с высоким разрешением без необходимости многократного обучения, что может помочь в будущих исследованиях в области синтеза ультравысокого разрешения изображений и видео.

Основные результаты можно суммировать следующим образом:

  1. Команда обнаружила, что причиной повторения объектов является ограниченное поле видимости сверточных процедур, а не количество токенов внимания.
  1. Исходя из этих результатов, команда предложила подход редиляции, который динамически увеличивает поле видимости свертки во время вывода, что и решает корень проблемы.
  1. Представлены две инновационные стратегии: децентрализованная свертка и подавление шума в свободном от классификатора руководстве, предназначенные специально для создания изображений с ультравысоким разрешением.
  1. Применение метода к модели текст-видео было осуществлено, и проведена всесторонняя оценка на различных моделях диффузии, включая различные итерации устойчивой диффузии. Эти тесты включают широкий спектр соотношений сторон и разрешений изображений, демонстрируя эффективность модели в решении проблемы повторения объектов и улучшении синтеза изображений высокого разрешения.