Исследователи из Google и Университета Джона Хопкинса раскрывают более быстрый и эффективный метод дистилляции для генерации текста в изображение преодоление ограничений модели диффузии.
Более быстрый и эффективный метод дистилляции текста в изображение результат совместной работы исследователей Google и Университета Джона Хопкинса
Путем создания высококачественных и разнообразных результатов модели диффузии текста в изображения, обученные на большом масштабе данных, значительно доминируют в генеративных задачах. В недавно разработанной тенденции типичные задачи преобразования изображений в изображения, такие как изменение изображений, улучшение или супер-разрешение, руководятся созданными результатами с использованием внешних изображений с помощью диффузии перед предобученными генеративными моделями текста в изображение. Диффузия, введенная предобученными моделями, значительно повышает визуальное качество выходов условного производства изображений среди различных процедур преобразования. Диффузионные модели, с другой стороны, в значительной степени зависят от итеративного процесса улучшения, который часто требует множество итераций, что может занимать много времени для эффективного завершения.
Зависимость от числа повторений возрастает еще больше для синтеза изображений высокого разрешения. Например, даже с использованием сложных методов выборки, отличное визуальное качество во ведущих текстовых моделях латентного распределения изображений часто требует 20-200 шагов выборки. Медленная процедура выборки серьезно ограничивает практическую применимость упомянутых выше условных моделей диффузии. Недавние попытки ускорить диффузионную выборку используют техники дистилляции. Эти техники значительно ускоряют выборку, заканчивая ее за 4-8 шагов, практически не влияя на генеративную производительность. Недавние исследования показывают, что эти техники также могут использоваться для сокращения объема большомасштабных моделей диффузии текста в изображение, которые уже были обучены.
Они предоставляют результаты своей дистиллированной модели в различных условных задачах, демонстрируя способность нашего предложенного подхода воспроизводить диффузионные априорные знания в сжатый период выборки.
- Исследователи из Стэнфордского Университета предлагают DDBMs простое и масштабируемое расширение моделей диффузии, подходящее для проблем распределения перевода.
- «Это исследование ИИ предлагает Kosmos-G искусственную модель интеллекта, которая выполняет высококачественную генерацию изображений нулевого шага из обобщенного визионно-языкового ввода, используя свойства мультимодельных LLM»
- Это исследование AI раскрывает ‘Кандинский1’ новый подход в генерации текста в изображение с использованием скрытой диффузии с выдающимися оценками FID на COCO-30K
Основываясь на этих методах дистилляции, можно использовать двухэтапный процесс дистилляции – сначала дистилляция, затем условная настройка – для дистиллирования условных моделей диффузии. При одинаковом времени выборки эти два подхода обычно дают результаты, которые превосходят результаты недистиллированной условной модели диффузии. Однако они имеют различные преимущества в отношении перекрестной гибкости задач и сложности обучения. В этой работе мы представляем новый метод дистилляции для извлечения условной модели диффузии из уже обученной безусловной модели диффузии. Наш подход предусматривает одну стадию, начиная с предварительного безусловного обучения и заканчивая дистиллированной условной моделью диффузии, в отличие от традиционного двухэтапного метода дистилляции.
Рисунок 1 иллюстрирует, как наша дистиллированная модель может прогнозировать результаты высокого качества всего за четверть шагов выборки, исходя из заданных визуальных настроек. Наш метод более практичен, так как этот упрощенный процесс обучения устраняет необходимость в исходных данных текста в изображение, которые были необходимы в ранних процессах дистилляции. Они также избегают компромисса, связанного с диффузионным априорным в предобученной модели, что является типичной ошибкой при использовании метода условной настройки на первой стадии. При одинаковом времени выборки обширные экспериментальные данные демонстрируют, что наша дистиллированная модель работает лучше, чем ранние методы дистилляции, как с точки зрения визуального качества, так и количественных показателей.
Областью, требующей дальнейших исследований, являются техники эффективной дистилляции параметров для условной генерации. Они показывают, что их подход представляет новый эффективный по параметрам механизм дистилляции. Добавляя несколько дополнительных обучаемых параметров, он может преобразовывать и ускорять безусловную модель диффузии для условных задач. В частности, их формулировка позволяет интегрировать несколько уже используемых методов эффективной настройки параметров, таких как T2I-Adapter и ControlNet. Используя как новые обучаемые параметры условного адаптера, так и замороженные параметры исходной модели диффузии, их метод дистилляции учится воспроизводить диффузионные априорные знания для зависимых задач с минимальными итеративными правками. Эта новая парадигма значительно увеличила полезность нескольких условных задач.