Исследование в области искусственного интеллекта из Китая представляет Consistent4D новый подход искусственного интеллекта для создания 4D-динамических объектов из некалиброванных одноканальных видео
Новый подход искусственного интеллекта Consistent4D из Китая исследование создания 4D-динамических объектов из некалиброванных одноканальных видео
Мир компьютерного зрения борется с фундаментальной, но трудной задачей: декодированием динамических 3D-данных из визуальных входов. Эта возможность является ключевой для целого спектра приложений, включая производство цифрового контента, моделирование автономных транспортных средств и анализ медицинских изображений. Однако получение такой информации из одиночного видеонаблюдения представляет собой значительную проблему из-за сложной природы динамических 3D-сигналов.
Большинство существующих методологий восстановления движущихся объектов требуют синхронизированные многокамерные записи как входные данные или полагаются на обученные данные с эффективными подсказками из многокамерных снимков с применением методов, таких как телепортация камер или квазистатические сцены. Однако эти подходы сталкиваются с трудностями в точном восстановлении элементов сцены, которые избегают попадания в объектив камеры. Кроме того, зависимость от синхронизированных настроек камер и точной калибровки сокращает практическую применимость этих методов в реальных сценариях.
Новое исследование, проведенное CASIA, Нанкинским университетом и Фуданским университетом, представляет Consistent 4D, новый метод, разработанный для создания 4D-контента из 2D-источников. Извлекая вдохновение из недавних достижений в области преобразования текста в 3D и изображения в 3D, этот подход представляет движущиеся объекты через настраиваемую модель Cascade DyNeRF с использованием модели диффузии 2D, предобученной для управления процессом оптимизации DyNeRF.
- Исследователи университета Дьюка предлагают концепцию Policy Stitching (Сшивание политик) новый фреймворк искусственного интеллекта, который упрощает обучение роботов для выполнения новых сочетаний задач и комбинаций роботов.
- Исследователи из Китая предлагают iTransformer Переосмысление архитектуры Трансформера для повышения прогнозирования временных рядов
- Исследователи из Стэнфорда представляют CORNN метод машинного обучения для реального времени анализа крупномасштабных нейронных записей.
Как упоминается в их статье, основной проблемой является сохранение временной и пространственной согласованности. Для решения этой проблемы исследователи использовали Interpolation-driven Consistency Loss (ICL), который разрешает проблему, полагаясь на предварительно обученную модель интерполяции видео. Это позволяет генерировать согласованные сигналы надзора как в пространстве, так и во времени. Следует отметить, что применение потери ICL не только улучшает надежность в разработке 4D, но также снижает проблемы, обычно связанные с различными аспектами в создании 3D. Кроме того, они проводят обучение в улучшителе видео в целях постобработки динамического видео, сгенерированного NeRF.
Обнадеживающие результаты, полученные в ходе наших обширных испытаний, охватывающих как синтетические, так и реальные видео из Интернета, являются перспективным шагом в неизведанной области создания видео в 4D.