Исследователи из Google и Корнельского университета представляют DynIBaR революционный метод динамической реконструкции сцены с использованием искусственного интеллекта.

Google и Корнельский университет представляют DynIBaR революционный метод динамической реконструкции сцены с использованием искусственного интеллекта

Новая статья исследователей из Google и Cornell представила DynlBaR, новый метод для генерации фотореалистичного свободного обзора. И, по словам команды, все это получено из одного видео с комплексной и динамичной сценой.

В последние годы область компьютерного зрения испытывает невероятный прогресс в воссоздании статических 3D сцен с использованием нейронных радиантных полей (NeRF). В то время как эти методы революционизировали нашу способность создавать реалистические 3D представления, их распространение на динамические сцены представляет значительные трудности.

Вот где появляется DynIBaR: Neural Dynamic Image-Based Rendering, инновационная техника искусственного интеллекта, представленная исследователями из Google и Cornell на CVPR 2023, предлагающая решение для съемки динамических сцен с использованием стандартной камеры телефона.

Наибольший интерес представляет создание точных и ясных представлений динамических сцен в реальных условиях, которое является стойкой задачей в компьютерном зрении. Существующие методы, включая пространственно-временные нейронные радиантные поля или Dynamic NeRF, часто сталкиваются с проблемами при работе с длинными видеозаписями, сложными движениями объектов и непредсказуемыми траекториями камеры.

Это ограничение снижает их практическую применимость, особенно при использовании обычных инструментов, таких как камеры смартфонов, для съемки динамических сцен. DynIBaR берет реконструкцию динамической сцены на новый уровень, генерируя высокореалистичные свободные обзоры из единственного видео, снятого с помощью стандартной камеры телефона.

Эта мощная техника предлагает ряд видеоэффектов, включая эффекты пулевого времени (временная остановка времени при движении камеры вокруг сцены), стабилизацию видео, настройку глубины резкости и замедление движения.

Одно из главных новшеств, лежащих в основе DynIBaR, – его масштабируемость к динамическим фильмам с длительной продолжительностью, различными сценами, непредсказуемыми движениями камеры и быстрыми и сложными движениями объектов. Это достигается с использованием полей траекторий движения, представленных базовыми функциями, эффективно моделирующими сложные движения, охватывающие несколько кадров.

Чтобы обеспечить временную целостность в воссоздании динамических сцен, DynIBaR вводит новую временную фотометрическую функцию потери, которая оперирует внутри движущегося пространства луча. Эта функция потери улучшает качество воссоздаваемых изображений, делая их более реалистичными и последовательными.

Кроме того, исследователи рекомендуют включение новой техники сегментации движения на основе изображения в байесовскую модель обучения. Этот подход к сегментации эффективно разделяет динамические и статические компоненты сцены, способствуя улучшению качества визуализации.

Одна из значительных трудностей в реконструкции динамических сцен заключается в вычислительной сложности нейронных сетей. Количество параметров в мультислойном перцептроне увеличивается с увеличением сложности и продолжительности сцены, что затрудняет обучение моделей на видеозаписях реального мира.

DynIBaR решает эту проблему, применяя непосредственно данные пикселей из окружающих кадров для создания новых изображений, что устраняет необходимость в чрезмерно объемной MLP. Основой DynIBaR является IBRNet, метод визуализации на основе изображения, изначально предназначенный для создания обзоров в статических сценах.

Построение на этой основе и внедрение инновационных техник позволяют DynIBaR преодолевать границы реконструкции динамических сцен.