Познакомьтесь с FreeU новой техникой искусственного интеллекта для улучшения качества генерации без дополнительного обучения или настройки

Встречайте FreeU - новейшую технику искусственного интеллекта для повышения качества генерации без необходимости дополнительного обучения или настройки

Вероятностные диффузионные модели, передовая категория генеративных моделей, стали ключевым моментом в исследовательском ландшафте, особенно для задач, связанных с компьютерным зрением. В отличие от других классов генеративных моделей, таких как вариационные автокодировщики (VAE), генеративно-состязательные сети (GAN) и квантованные векторные подходы, диффузионные модели вводят новую генеративную парадигму. Эти модели используют фиксированные марковские цепи для отображения скрытого пространства, обеспечивая сложные отображения, которые захватывают скрытые структурные сложности в наборе данных. Недавно их впечатляющие генеративные возможности, начиная от высокой детализации до разнообразия созданных примеров, привели к новаторским достижениям в различных приложениях компьютерного зрения, таких как синтез изображений, редактирование изображений, перевод изображения в изображение и генерация текста в видео.

Диффузионные модели состоят из двух основных компонентов: процесса диффузии и процесса шумоподавления. Во время процесса диффузии гауссовский шум последовательно вводится во входные данные, постепенно превращая их в почти чистый гауссовский шум. В отличие от этого процесс шумоподавления стремится восстановить исходные входные данные из их шумного состояния, используя последовательность обратных операций диффузии, освоенных изучением. Обычно при каждом шаге шумоподавления применяется U-Net для итеративного предсказания удаления шума. Существующие исследования в основном сосредоточены на использовании предварительно обученных диффузионных U-Net для последующих приложений с ограниченным исследованием внутренних характеристик диффузионных U-Net.

Совместное исследование от S-Lab и Nanyang Technological University отклоняется от обычного применения диффузионных моделей, исследуя эффективность диффузионных U-Net в процессе шумоподавления. Чтобы глубже понять процесс шумоподавления, исследователи предлагают изменить парадигму обращения к пространству Фурье для наблюдения процесса генерации диффузионных моделей – относительно неизведанной области исследований.

На рисунке выше показан постепенный процесс шумоподавления в верхнем ряду, демонстрирующий сгенерированные изображения на последовательных итерациях. В отличие от этого, следующие два ряда представляют собой соответствующую низкочастотную и высокочастотную пространственную область после обратного преобразования Фурье, соответствующую каждому последующему шагу. Этот рисунок показывает постепенный модуляцию низкочастотных компонентов, указывая на подавленную скорость изменения, в то время как высокочастотные компоненты проявляют более выраженную динамику во всем процессе шумоподавления. Эти результаты могут быть интуитивно объяснены: низкочастотные компоненты внутренне представляют глобальную структуру и характеристики изображения, охватывающие глобальные макеты и плавные цвета. Радикальные изменения в этих компонентах обычно не приспособлены для процессов шумоподавления, поскольку они могут фундаментально изменить сущность изображения. С другой стороны, высокочастотные компоненты захватывают быстрые изменения в изображениях, такие как грани и текстуры, и чрезвычайно чувствительны к шуму. Процессы шумоподавления должны удалять шум, сохраняя эти интригующие детали.

Учитывая эти наблюдения в отношении низкочастотных и высокочастотных компонентов в процессе шумоподавления, исследование расширяется для определения конкретного вклада архитектуры U-Net в рамках диффузионной среды. На каждом этапе декодера U-Net комбинируются функции пропуска от соответствующих соединений и функции основы. Исследование показывает, что основа U-Net играет существенную роль в шумоподавлении, тогда как соединения пропуска вводят высокочастотные функции в модуль декодера, помогая в восстановлении тонкой семантической информации. Однако такое распространение высокочастотных функций может непроизвольно ослабить врожденные шумоподавляющие возможности основы во время фазы вывода, что может привести к генерации ненормальных деталей изображения, как показано в первом ряду рисунка 1.

В свете этого открытия исследователи предлагают новый подход, названный “FreeU”, который может повысить качество созданных образцов, не требуя дополнительных вычислительных нагрузок от обучения или настройки. Обзор этой структуры приведен ниже.

Во время фазы вывода вводятся два специализированных фактора модуляции для балансировки вклада основной спинки и пропущенных соединений в архитектуре U-Net. Первый фактор, известный как “факторы основной спинки”, предназначен для усиления карт признаков основной спинки, тем самым укрепляя процесс удаления шума. Однако наблюдается, что включение масштабных факторов основной спинки, хотя и приводит к значительным улучшениям, иногда может приводить к нежелательному сглаживанию текстур. Чтобы решить эту проблему, вводится второй фактор – “масштабирующие факторы пропущенных признаков” для смягчения проблемы слишком сглаженных текстур.

Каркас FreeU демонстрирует безупречную адаптивность при интеграции с существующими моделями диффузии, включая приложения, такие как генерация текста в изображение и генерация текста в видео. Проводится всесторонняя экспериментальная оценка этого подхода с использованием базовых моделей, таких как Stable Diffusion, DreamBooth, ReVersion, ModelScope и Rerender для сравнения результатов. Когда FreeU применяется во время фазы вывода, эти модели показывают заметное улучшение качества созданных результатов. Визуальное представление на иллюстрации ниже является доказательством эффективности FreeU в значительном улучшении как сложных деталей, так и общей визуальной достоверности созданных изображений.

Это было краткое описание FreeU, новой техники искусственного интеллекта, которая повышает качество выходных данных генеративных моделей без дополнительного обучения или настройки. Если вас интересует и вы хотите узнать больше об этом, пожалуйста, обратитесь к ссылкам, указанным ниже.