Исследование в области искусственного интеллекта из Китая представляет Consistent4D новый подход искусственного интеллекта для создания 4D-динамических объектов из некалиброванных одноканальных видео

Новый подход искусственного интеллекта Consistent4D из Китая исследование создания 4D-динамических объектов из некалиброванных одноканальных видео

Мир компьютерного зрения борется с фундаментальной, но трудной задачей: декодированием динамических 3D-данных из визуальных входов. Эта возможность является ключевой для целого спектра приложений, включая производство цифрового контента, моделирование автономных транспортных средств и анализ медицинских изображений. Однако получение такой информации из одиночного видеонаблюдения представляет собой значительную проблему из-за сложной природы динамических 3D-сигналов.

Большинство существующих методологий восстановления движущихся объектов требуют синхронизированные многокамерные записи как входные данные или полагаются на обученные данные с эффективными подсказками из многокамерных снимков с применением методов, таких как телепортация камер или квазистатические сцены. Однако эти подходы сталкиваются с трудностями в точном восстановлении элементов сцены, которые избегают попадания в объектив камеры. Кроме того, зависимость от синхронизированных настроек камер и точной калибровки сокращает практическую применимость этих методов в реальных сценариях.

Новое исследование, проведенное CASIA, Нанкинским университетом и Фуданским университетом, представляет Consistent 4D, новый метод, разработанный для создания 4D-контента из 2D-источников. Извлекая вдохновение из недавних достижений в области преобразования текста в 3D и изображения в 3D, этот подход представляет движущиеся объекты через настраиваемую модель Cascade DyNeRF с использованием модели диффузии 2D, предобученной для управления процессом оптимизации DyNeRF.

Как упоминается в их статье, основной проблемой является сохранение временной и пространственной согласованности. Для решения этой проблемы исследователи использовали Interpolation-driven Consistency Loss (ICL), который разрешает проблему, полагаясь на предварительно обученную модель интерполяции видео. Это позволяет генерировать согласованные сигналы надзора как в пространстве, так и во времени. Следует отметить, что применение потери ICL не только улучшает надежность в разработке 4D, но также снижает проблемы, обычно связанные с различными аспектами в создании 3D. Кроме того, они проводят обучение в улучшителе видео в целях постобработки динамического видео, сгенерированного NeRF.

Обнадеживающие результаты, полученные в ходе наших обширных испытаний, охватывающих как синтетические, так и реальные видео из Интернета, являются перспективным шагом в неизведанной области создания видео в 4D.