Познакомьтесь с ProPainter улучшенной нейросетевой средой для видеоинпейнтинга (VI) с улучшенным распространением и эффективным преобразователем.

Познакомьтесь с ProPainter - улучшенной нейросетевой средой для видеоинпейнтинга (VI).

Область искусственного интеллекта развивается, как никогда раньше. Одно из его основных подполей, широко известное компьютерное зрение, привлекло значительное внимание в последнее время. Особая техника в области компьютерного зрения, называемая видеоинпейнтингом (VI), заполняет любые пробелы или отсутствующие области в видео, сохраняя визуальную связность и гарантируя пространственную и временную связность. Применения этой сложной задачи включают завершение видео, удаление объектов, восстановление видео, удаление водяных знаков и удаление логотипов. Основная цель – бесшовно включить новые кадры в видео, создавая впечатление, что отсутствующие области никогда не существовали.

VI является особенно сложным, поскольку требует точного установления соответствия между разными кадрами видео для агрегации информации. Многие ранние методы VI выполняли распространение в области признаков или изображений отдельно. Изоляция глобального распространения изображений от процесса обучения может привести к проблемам с пространственным смещением из-за неточной оценки оптического потока. В результате этого смещения заполненные участки могут выглядеть непоследовательно с визуальной точки зрения.

Еще одним недостатком являются ограничения памяти и вычислительные ограничения, связанные с методами распространения признаков и видеотрансформера. Эти ограничения ограничивают временной интервал, в течение которого эти стратегии могут использоваться эффективно. Из-за этого они не могут исследовать данные об соответствии в далеких кадрах видео, что является важным для обеспечения безупречного инпейнтинга. Для преодоления этих ограничений команда исследователей из S-Lab, Наньянского технологического университета, представила улучшенную рамку VI, называемую ProPainter.

ProPainter включает две основные компоненты: улучшенное распространение и эффективный трансформер. С помощью ProPainter команда представила концепцию двойного домена передачи, которая стремится объединить преимущества подходов на основе признаков и искажения изображений. Таким образом, она использует преимущества международного соответствия, обеспечивая точное распространение информации. Она заполняет пробел между передачей на основе изображений и признаков, чтобы производить инпейнтинг результаты, которые более точны и визуально последовательны.

ProPainter также имеет разреженный видеотрансформер с маской-руководителем в дополнение к двойному доменному распространению. В отличие от обычных пространственно-временных трансформаторов, которые требуют значительных вычислительных ресурсов из-за взаимодействия между несколькими видео-токенами, он максимизирует эффективность, сосредотачивая внимание только на соответствующих областях, обнаруженных масками инпейнтинга. Поскольку маски инпейнтинга часто покрывают только определенные области видео, и близкие кадры часто имеют повторяющиеся текстуры, этот метод устраняет бессмысленные токены, снижая вычислительную нагрузку и потребности в памяти. Это позволяет трансформатору работать хорошо, не ухудшая качество инпейнтинга.

ProPainter превосходит предыдущие методы VI с большим отрывом в 1,46 дБ по PSNR (Peak Signal-to-Noise Ratio), который является стандартной статистикой для оценки качества изображений и видео. В заключение, ProPainter является важным достижением в области инпейнтинга видео, поскольку он имеет улучшенную производительность, сохраняя при этом высокий уровень эффективности. Он решает важные проблемы с пространственным смещением и вычислительными ограничениями, делая его полезным инструментом для таких задач, как удаление объектов, завершение видео и восстановление видео.