Встречайте VideoSwap Искусственный Интеллектовый Фреймворк, который настраивает замену объектов на видео с помощью интерактивной семантической точечной корреспонденции.

Встречайте VideoSwap инновационный фреймворк искусственного интеллекта для замены объектов на видео с помощью интерактивной семантической точечной корреспонденции.

Недавно в области видеомонтажа произошли значительные достижения, причем на первый план вышло использование искусственного интеллекта (ИИ) для редактирования. Появилось множество новых методов, и среди них особенно обещающей областью является редактирование видео на основе диффузионных моделей текст-изображение/видео. Она использует предварительно обученные модели для преобразования стиля, замены фона и т. д. Однако наиболее сложным аспектом редактирования видео является передача движения от исходного видео к отредактированному и, самое главное, обеспечение временной согласованности во всем процессе.

Большинство инструментов видеомонтажа сосредотачивается на сохранении структуры видео путем обеспечения временной согласованности и согласования движения. Однако этот процесс становится неэффективным при изменении формы объекта в видео. Чтобы заполнить этот пробел, авторы статьи (исследователи из Show Lab Национального университета Сингапура и GenAI Meta) представили VideoSwap, фреймворк, который использует семантическую корреспонденцию точек вместо плотной корреспонденции для согласования траектории движения объекта и изменения его формы.

Использование плотной корреспонденции позволяет достичь лучшей временной согласованности, но ограничивает изменение формы объекта в отредактированном видео. Хотя семантическая корреспонденция точек является более гибким методом, она меняется в различных условиях реального мира, что затрудняет обучение модели для общих условий. Исследователи попытались использовать только ограниченное количество кадров исходного видео для обучения семантическому управлению точками. Они обнаружили, что точки, оптимизированные для кадров исходного видео, могут согласовывать траекторию движения объекта и изменять его форму. Кроме того, оптимизированные семантические точки также могут передаваться при семантических и низкоуровневых изменениях. Эти наблюдения говорят в пользу использования семантической корреспонденции точек в видеомонтаже.

Исследователи разработали фреймворк следующим образом. В него был интегрирован слой движения в модель диффузии изображений, что обеспечивает временную согласованность. Они также выявили семантические точки в исходном видео и использовали их для передачи траектории движения. Метод сосредоточен только на семантическом согласовании на высоком уровне, что позволяет избежать излишней детализации низкого уровня и улучшает согласование семантических точек. Кроме того, VideoSwap обеспечивает взаимодействие с пользователями, такие как удаление или перетаскивание точек для создания семантической корреспонденции.

Исследователи реализовали фреймворк с использованием модели латентной диффузии и приняли слой движения в AnimateDiff в качестве основной модели. Они обнаружили, что по сравнению с предыдущими методами видеомонтажа VideoSwap достигает значительного изменения формы при одновременном согласовании траектории движения объекта и сохранении идентичности целевого концепта. Исследователи также подтвердили свои результаты с помощью человеческих оценщиков, и результаты ясно показывают, что VideoSwap превосходит другие сравниваемые методы по критериям идентичности объекта, согласованию движения и временной согласованности.

В заключение, VideoSwap – универсальный фреймворк, который позволяет редактирование видео, в том числе с сложными формами. Он ограничивает вмешательство человека в процесс и использует семантическую корреспонденцию точек для лучшей замены объекта в видео. Метод также позволяет менять форму объекта, одновременно согласуя траекторию движения с исходным объектом, и превосходит предыдущие методы по нескольким критериям, демонстрируя передовые результаты в индивидуальной замене объектов в видео.