Исследователи из Университета Наньянской технологии представляют прорывной метод Повышение качества видео с помощью скрытой диффузии, руководимой текстом для улучшения супер-разрешения видео.

Прорывный метод повышения качества видео при помощи скрытой диффузии, руководимой текстовой информацией исследователи из Университета Наньянской технологии представляют технологию для улучшения супер-разрешения видео.

Видео суперразрешение, направленное на повышение качества низкокачественных видео до высокой точности, сталкивается с огромным вызовом в решении разных и сложных деградаций, обычно встречающихся в реальных сценариях. В отличие от предыдущих фокусов на синтетических или специфических деградациях, сложность возникает из-за множества неизвестных факторов, таких как уменьшение размера, шум, размытие, мерцание и сжатие видео. Несмотря на то, что недавние модели на основе CNN показали определенный потенциал в смягчении этих проблем, они не справляются с производством реалистичных текстур из-за ограниченных возможностей в генерации, что приводит к излишнему сглаживанию. Данное исследование основывается на использовании моделей диффузии для решения этих ограничений и улучшения видео суперразрешения.

Сложность улучшения видео в реальных условиях требует решений, превосходящих традиционные методы, борясь с множеством сложных деградаций. Модели на основе CNN проявляют себя в смягчении нескольких форм деградации, но их ограничение заключается в генерации реалистичных текстур, что часто приводит к излишнему сглаживанию выходов. Модели диффузии появились как свет надежды, проявляя впечатляющие возможности в создании изображений и видео высокого качества. Однако адаптация этих моделей к видео суперразрешению остается серьезным вызовом из-за внутренней случайности в диффузионной выборке, приводящей к временным разрывам и мерцанию в низкоуровневых текстурах.

Для решения этих задач исследователи из НТУ в данном исследовании используют стратегию локальной-глобальной временной согласованности в рамках латентного диффузионного фреймворка. На локальном уровне предварительно обученная модель масштабирования проходит дообучение с помощью дополнительных временных слоев, интегрируя 3D свертки и временные слои внимания. Это дополнительное обучение существенно улучшает стабильность структуры в локальных последовательностях, уменьшая проблемы, такие как мерцание текстуры. Одновременно работает новый модуль распространения латентного состояния, направляемого потоком, на глобальном уровне, обеспечивая общую стабильность более длинных видео путем проведения поэтапного распространения и слияния латентных состояний во время вывода.

Рисунок 1: Сравнение между сверхразрешенными видео, созданными искусственным интеллектом и реальными видео. Предложенное Upscale-A-Video демонстрирует превосходность производительности увеличения разрешения. Он обеспечивает удивительные результаты с большим визуальным реализмом и более тонкими деталями, используя правильные намеки на текст.

Исследование исследует инновационные подходы, вводя текстовые подсказки для руководства созданием текстуры, что позволяет модели создавать более реалистичные и высококачественные детали. Кроме того, устойчивость модели против сильных или незапланированных деградаций усиливается путем введения шума во входы, предлагая контроль над балансом восстановления и генерации. Более низкие уровни шума дает приоритет умениям восстановления, в то время как более высокие уровни стимулируют более изысканное создание деталей, достигая компромисса между точностью и качеством.

Основной вклад заключается в разработке надежного подхода к суперразрешению видео в реальных условиях, объединяющему локально-глобальную временную стратегию в рамках латентного диффузионного фреймворка. Интеграция механизмов временной согласованности и инновационного контроля уровней шума и текстовых подсказок позволяет модели достигать передовой производительности на тестовых площадках, проявлять замечательный визуальный реализм и временную согласованность.