Stability AI представляет Adversarial Diffusion Distillation (ADD) Революционный метод для высококачественного, реального синтеза изображений в минимальное количество шагов

Stability AI представляет революционный метод Adversarial Diffusion Distillation (ADD) для высококачественного и мгновенного синтеза изображений

“`html

В генеративном моделировании модели диффузии (DM) играют ведущую роль, способствуя последнему прогрессу в создании высококачественного синтеза картинок и видео. Масштабируемость и итеративность являются двумя основными преимуществами DM; они позволяют выполнять сложные задачи, такие как создание изображений на основе свободного текстового контекста. К сожалению, множество шагов демонстрации, необходимых для итеративного процесса вывода, в настоящее время препятствуют использованию DM в реальном времени. С другой стороны, одношаговая формулировка и внутренняя скорость генеративных антагонистических сетей (GAN) отличают их. Однако, что касается качества образца, GAN-ы часто требуют больше шагов DM, несмотря на усилия по расширению до массивных наборов данных.

Исследователи из Stability AI в этом исследовании стремятся соединить врожденную скорость GAN со лучшим качеством образца DM. Их стратегия является простой с концептуальной точки зрения: исследовательская группа предлагает метод Адверсарная Диффузионная Дистилляция (ADD), общую технику, которая сохраняет хорошую точность демонстрации и может потенциально улучшить общую производительность модели, уменьшая количество шагов вывода заранее обученной модели диффузии до 1-4 шагов демонстрации. Исследовательская группа комбинирует две учебные задачи: (i) потерю дистилляции, эквивалентную демонстрации оценки (SDS), с адверсарной потерей.

На каждом проходе вперед адверсарная потеря побуждает модель создавать образцы, лежащие на многообразии реальных изображений прямо, устраняя артефакты, такие, как размытость, часто встречающиеся в других методах дистилляции. Для сохранения высокой композициональности, характерной для больших DM, и эффективного использования значительных знаний о заранее обученном DM, потеря дистилляции использует другой заранее обученный (и фиксированный) DM в качестве учителя. Их метод также минимизирует требования к памяти, не используя неклассификационное руководство во время вывода. Преимущество перед предыдущими одношаговыми методами на основе GAN состоит в том, что исследовательская группа может продолжать разрабатывать модель и улучшать результаты итеративно.

Рисунок 1 показывает фотографии высокой точности, созданные в одной операции. Метод Адверсарная Диффузионная Дистилляция (ADD) используется для создания одного оценивающего U-Net для каждого образца.

Ниже приведено краткое изложение их вклада:

• Исследовательская группа представляет ADD, технику, которая требует всего 1-4 шагов демонстрации для преобразования предварительно обученных моделей диффузии в генераторы картинок высокой точности в режиме реального времени. Исследовательская группа тщательно рассмотрела несколько проектных решений для своего уникального подхода, который объединяет адверсарное обучение с дистилляцией оценки.

• ADD-XL превосходит модель учителя SDXL-Base при разрешении 5122 px с использованием четырех шагов демонстрации. • ADD может обрабатывать сложные композиции изображений, сохраняя высокую реалистичность при использовании всего одного шага вывода. • ADD значительно превосходит сильные базовые уровни, такие, как LCM, LCM-XL и одношаговые GAN.

В заключение, данное исследование представляет общую технику для дистилляции предварительно обученной модели диффузии в быструю модель для генерации картинок за несколько шагов: Адверсарная Диффузионная Дистилляция. С использованием реальных данных через дискриминатор и структурного знания через инструктора диффузии, исследовательская группа объединяет адверсарную и целевую функцию дистилляции, чтобы извлечь общедоступные модели Stable Diffusion и SDXL. Их анализ показывает, что их метод превосходит все существующие подходы и особенно хорошо работает в режиме сверхбыстрой демонстрации за один или два шага. Кроме того, исследовательская группа может по-прежнему улучшать образцы с помощью нескольких процессов. Их модель показывает более высокую производительность с использованием четырех шагов образца, чем популярные многошаговые генераторы, такие как IF, SDXL и OpenMUSE. Их методология открывает новые возможности для создания картинок в реальном времени с использованием базовых моделей, позволяя разрабатывать высококачественные фотографии в одном шаге.

“`