Познакомьтесь с StableSR новым подходом AI суперразрешения, использующим мощь предварительно обученных моделей диффузии.

StableSR - новый подход AI суперразрешения, использующий предварительно обученные модели диффузии.

Значительный прогресс наблюдается в разработке моделей диффузии для различных задач синтеза изображений в области компьютерного зрения. Предыдущие исследования продемонстрировали применимость диффузионного приора, встроенного в модели синтеза, такие как Stable Diffusion, для решения широкого спектра задач создания контента, включая редактирование изображений и видео.

В данной статье исследование расширяется за пределы создания контента и исследует потенциальные преимущества использования диффузионного приора для задач повышения разрешения (SR). Повышение разрешения, задача низкого уровня зрения, представляет дополнительную сложность из-за требования высокой достоверности изображения, что противоречит врожденной стохастической природе моделей диффузии.

Обычным решением этой проблемы является тренировка модели повышения разрешения с нуля. Эти методы включают низкоразрешенное (LR) изображение в качестве дополнительного входа, чтобы ограничить пространство вывода и сохранить достоверность. Хотя эти подходы достигли похвальных результатов, они часто требуют значительных вычислительных ресурсов для обучения модели диффузии. Кроме того, начало обучения сети с нуля может потенциально нарушить генеративные приоритеты, захваченные в моделях синтеза, что может привести к недостаточной производительности сети.

В ответ на эти ограничения был исследован альтернативный подход. Этот альтернативный подход заключается во внесении ограничений в процесс обратной диффузии предварительно обученной модели синтеза. Этот подход позволяет сохранить генеративные приоритеты без необходимости обучать модель с нуля. Однако стоит отметить, что разработка этих ограничений предполагает наличие предварительных знаний о деградации изображений, которые обычно являются неизвестными и сложными. В результате такие методы проявляют ограниченную обобщаемость.

Для решения упомянутых ограничений исследователи представляют StableSR, подход, разработанный для сохранения предварительно обученных диффузионных приоритетов без явных предположений о деградации изображений. Обзор представленной техники приведен ниже.

В отличие от предыдущих подходов, которые объединяют низкоразрешенное (LR) изображение с промежуточными результатами, требуя обучения модели диффузии с нуля, StableSR включает донастройку легкого кодировщика, учитывающего время, и нескольких слоев модуляции особенно разработанных для задач повышения разрешения (SR).

Кодировщик включает слой временной вставки, чтобы генерировать особенности, учитывающие время, позволяя адаптивную модуляцию особенностей в модели диффузии на разных итерациях. Это не только улучшает эффективность обучения, но и сохраняет целостность генеративного приоритета. Кроме того, кодировщик, учитывающий время, обеспечивает адаптивное руководство в процессе восстановления, с более сильным руководством на более ранних итерациях и слабее на более поздних этапах, что значительно способствует улучшению производительности.

Для решения проблемы врожденной случайности модели диффузии и снижения потери информации в процессе кодирования автоэнкодера, StableSR применяет модуль управляемой обертки особенностей. Этот модуль вводит регулируемый коэффициент для уточнения выводов модели диффузии в процессе декодирования, используя промежуточные особенности на нескольких масштабах от кодировщика в остаточном стиле. Регулируемый коэффициент позволяет непрерывно балансировать достоверность и реализм, адаптируясь к широкому диапазону уровней деградации.

Кроме того, адаптация моделей диффузии для задач повышения разрешения при произвольных разрешениях исторически вызывала трудности. Для преодоления этого StableSR вводит прогрессивную стратегию выборки слияния. Этот подход делит изображение на перекрывающиеся патчи и объединяет их с помощью гауссова ядра на каждой итерации диффузии. Результатом является более плавный переход на границах, обеспечивающий более целостный вывод.

Некоторые образцы вывода StableSR, представленные в оригинальной статье и сравненные с передовыми подходами, показаны на рисунке ниже.

Вкратце, StableSR предлагает уникальное решение для адаптации генеративных априорных знаний к вызовам повышения разрешения реального мира изображений. Данный подход использует предварительно обученные модели распространения без явных предположений о деградации, решая проблемы достоверности и произвольного разрешения с помощью включения временно-осведомленного кодера, модуля обертывания контролируемых характеристик и стратегии прогрессивной агрегации выборки. StableSR служит надежной отправной точкой, вдохновляющей будущие исследования в области применения априорных знаний о распространении для задач восстановления.

Если вас интересует и вы хотите узнать больше об этом, пожалуйста, обратитесь к приведенным ниже ссылкам.