Эта статья о искусственном интеллекте представляет прорывной метод моделирования динамики 3D-сцены с использованием видеорядов с множеством ракурсов.

Прорывной метод моделирования динамики 3D-сцены с использованием видеорядов с множеством ракурсов новое достижение в области искусственного интеллекта

NVFi решает сложную задачу понимания и прогнозирования динамики в трехмерных сценах, развивающихся со временем, что критически важно для применений в дополненной реальности, играх и кинематографии. В то время как люди без труда понимают физику и геометрию таких сцен, существующие вычислительные модели борются с явным освоением этих свойств из многоперспективных видео. Основной проблемой является неспособность существующих методов, включая нейронные радиационные поля и их производных, извлекать и прогнозировать будущие движения на основе изученных физических законов. NVFi решительно стремится устранить эту проблему, включая разделение полей скорости, полученных исключительно из кадров многоперспективного видео, что еще не исследовалось в предыдущих структурах.

Динамичная природа трехмерных сцен представляет собой глубокую вычислительную задачу. В то время как последние достижения в нейронных радиационных полях продемонстрировали исключительные способности в интерполяции видов в наблюдаемые временные рамки, они не позволяют изучать явные физические характеристики, такие как скорости объектов. Это ограничение препятствует их способности точно прогнозировать будущие движения. Текущие исследования, интегрирующие физику в нейронные представления, обещают восстанавливать геометрию, внешний вид, поля скорости и вязкости сцен. Однако, эти изученные физические свойства часто переплетаются с конкретными элементами сцены или требуют дополнительных масок переднего плана, ограничивая их применимость к разным сценам. Главная идея NVFi состоит в разделении и осознании полей скорости во всей трехмерной сцене, создавая возможность прогнозирования, превышающей тренировочные наблюдения.

Исследователи из Гонконгского политехнического университета представляют комплексную систему NVFi, включающую три основых компонента. Во-первых, ключевое динамическое радиационное поле облегчает изучение зависимой от времени плотности объема и внешнего вида для каждой точки в трехмерном пространстве. Во-вторых, поле скорости между кадрами улавливает зависящие от времени трехмерные скорости для каждой точки. Наконец, совместная оптимизационная стратегия, включающая как ключевые, так и скоростные элементы, дополненная физикой, оркестрирует процесс обучения. Эта система предлагает гибкость в применении существующих архитектур NeRF для моделирования динамического радиационного поля и использования относительно простых нейронных сетей, таких как MLP, для поля скорости. Главное преимущество заключается в третьем компоненте, где совместная стратегия оптимизации и конкретные функции потерь позволяют точно изучить разделенные поля скорости без дополнительной информации или масок, специфических для объектов.

Инновационное преимущество NVFi заключается в его способности моделировать динамику трехмерных сцен исключительно из кадров многоперспективных видео, без необходимости конкретных данных или масок для объектов. Он тщательно сосредоточен на разделении полей скорости, критическом аспекте, регулирующем динамику движения сцены, что является ключом к многим приложениям. NVFi демонстрирует свою компетентность в экстраполяции будущих кадров, семантическом разделении сцен и передаче скоростей между различными сценами на нескольких наборах данных. Эти экспериментальные проверки подтверждают приспособляемость и превосходную производительность NVFi в различных реальных сценариях.

Основные вклады и выводы:

  • Введение NVFi, новой структуры для моделирования динамических трехмерных сцен из многоперспективного видео без предварительной информации о объекте.
  • Разработка и реализация нейронного поля скорости вместе с совместной стратегией оптимизации для эффективного обучения сети.
  • Успешная демонстрация возможностей NVFi на различных наборах данных, демонстрирующих превосходную производительность в прогнозировании будущих кадров, семантической декомпозиции сцены и переносе скоростей между сценами.