Исследователи из Университета Мэриленда и Meta AI предлагают OmnimatteRF новый метод видео-матирования, который объединяет динамические 2D передние слои и 3D модель фона.

Researchers from the University of Maryland and Meta AI propose OmnimatteRF, a new video matting method that combines dynamic 2D foreground layers and a 3D background model.

Разделение видео на множество слоев, каждый со своим альфа-матом, а затем восстановление слоев в исходное видео – это задача, известная как “видео-матирование”. Поскольку возможно заменять слои или обрабатывать их отдельно перед их компоновкой, она имеет множество применений в индустрии видеомонтажа и изучается на протяжении десятилетий. Применения, где требуются маски только интересующего объекта, включают ротоскопирование в видеопроизводстве и размытие заднего плана на онлайн-встречах. Однако возможность создавать видео-маты, которые включают не только интересующий объект, но и его связанные эффекты, включая тень и отражения, в целом желательна. Это может повысить реализм финального фильма, сокращая необходимость в трудоемком ручном сегментировании вторичных эффектов.

Восстановление чистого заднего плана предпочтительно в приложениях, таких как удаление объектов, и возможность исключить соответствующие влияния переднего плана помогает справиться с этой задачей. Несмотря на свои преимущества, недостаточное исследование этой проблемы привело к значительно меньшему количеству исследований по сравнению со стандартной задачей матирования.

Omnimatte – наиболее перспективное усилие на сегодняшний день в решении этой проблемы. Omnimattes – это слои RGBA, которые записывают движущиеся объекты на переднем плане и эффекты, которые они производят. Использование гомографии в Omnimatte для моделирования заднего плана означает, что оно может быть эффективным только для видео, в котором задний план является плоским или в котором единственный вид движения – это вращение.

D2NeRF прилагает усилия для решения этой проблемы, моделируя динамические и статические компоненты сцены отдельно с использованием двух плотностных полей. Вся обработка выполняется в трех измерениях, и система может обрабатывать сложные сценарии с большим количеством движения камеры. Кроме того, не требуется ввод маски, что делает его полностью самообучаемым. Неясно, как объединить 2D-направление, определенное на видео, такое как грубые маски, но она эффективно сегментирует все движущиеся объекты от статического фона.

Недавние исследования университета Мэриленда и Meta предлагают подход, который объединяет преимущества обоих подходов, используя 3D-модель заднего плана с 2D-слоями переднего плана.

Объекты, действия и эффекты, которые было бы трудно создать в 3D, могут быть представлены легкими 2D-слоями переднего плана. В то же время, моделирование заднего плана в 3D позволяет работать с сложной геометрией заднего плана и неротационными движениями камеры, что открывает путь к обработке более широкого спектра фильмов, чем 2D-подходы. Исследователи называют эту технику OmnimatteRF.

Экспериментальные результаты демонстрируют ее высокую производительность на широком спектре видео без необходимости индивидуальной настройки параметров для каждого видео. D2NeRF создал набор данных из 5 видео, созданных с использованием Kubrics, чтобы объективно анализировать разделение фона в 3D-средах. Эти наборы данных представляют относительно чистые внутренние настройки с некоторыми движущимися объектами, создающими сплошные тени. Кроме того, команда создала пять видео на основе открытых фильмов Blender, которые имеют сложные анимации и условия освещения для более сложных и реалистичных сценариев. Оба набора данных демонстрируют превосходную производительность по сравнению с предыдущими исследованиями.

Модель заднего плана не сможет точно восстановить цвет секции, если она всегда находится в тени. Поскольку у анимационного слоя есть альфа-канал, должно быть возможно записывать только добавочную тень, сохраняя исходный цвет фона. К сожалению, отсутствие четких границ вокруг этой проблемы в ее текущем контексте затрудняет нахождение работающего решения.