Революционизация реального времени синтеза новых видов 1080p прорыв с помощью 3D-гауссиан и видимостно-ориентированной отрисовки

Revolutionizing real-time synthesis of new 1080p species breakthrough with 3D-Gaussian and visibility-oriented rendering

Сетки и точки являются наиболее распространенными представлениями трехмерных сцен, поскольку они явные и хорошо подходят для быстрой растеризации на GPU/CUDA. В отличие от этого, недавние методы Neural Radiance Field (NeRF) основаны на непрерывных представлениях сцены, обычно оптимизирующих многослойный персептрон (MLP) с использованием объемной лучевой маршрутизации для синтеза нового вида захваченных сцен. Аналогично, наиболее эффективные решения для радиационных полей основаны на непрерывных представлениях, интерполируя значения, хранящиеся в, например, воксельных, хеш-сетках или точках. В то время как постоянная природа этих методов помогает оптимизации, стохастическое выборочное воспроизведение, необходимое для визуализации, является затратным и может привести к шуму. 

Исследователи из Университета Кот-д’Ажур и Макс-Планк-Института информатики представляют новый подход, который объединяет лучшее из двух миров: их трехмерное гауссово представление позволяет оптимизировать визуальное качество с использованием передовых (SOTA) методов и конкурентоспособное время обучения. В то же время их решение на основе тайлового сплаттинга обеспечивает реальномасштабную визуализацию с передовым качеством для разрешения 1080p на нескольких ранее опубликованных наборах данных (см. рис. 1). Их целью является обеспечение реальномасштабной визуализации для сцен, захваченных несколькими фотографиями, и создание представлений с оптимизацией времени, такими же быстрыми, как у наиболее эффективных предыдущих методов для типичных реальных сцен. Недавние методы обеспечивают быстрое обучение, но испытывают трудности в достижении визуального качества, получаемого с использованием текущих передовых методов NeRF, например, Mip-NeRF360, для которого требуется до 48 часов обучения.

Рис. 1: Подход визуализирует радиационные поля в реальном времени с качеством, сопоставимым с лучшими предыдущими методами, требуя при этом время оптимизации, соответствующее самым быстрым предыдущим способам. Уникальное трехмерное гауссово представление сцены и реализация дифференцируемого рендерера в реальном времени, которая существенно ускоряет оптимизацию сцены и инновационный синтез вида, существенны для достижения такой производительности. Хотя это наивысшее качество, которое может достичь InstantNGP после сравнимого времени обучения, они могут получить передовое качество в течение 51 минут, что даже немного превосходит Mip-NeRF360.

Быстрые, но менее качественные методы радиационных полей могут достигать интерактивной визуализации в зависимости от сцены (10-15 кадров в секунду), но не могут обеспечить визуализацию в режиме реального времени с высоким разрешением. Их решение основано на трех основных компонентах. Они первым делом представляют 3D гауссовыми функциями в качестве гибкого и выразительного представления сцены. Они начинают с того же ввода, что и предыдущие методы NeRF, то есть с калиброванными камерами с использованием Structure-from-Motion (SfM) и инициализируют набор 3D гауссовыми функциями с разреженным облаком точек, полученным бесплатно в рамках процесса SfM. В отличие от большинства точечных решений, требующих данных Multi-View Stereo (MVS), они достигают высококачественных результатов только с точками SfM в качестве ввода. Обратите внимание, что для набора данных NeRF-синтетической сцены их метод достигает высокого качества даже с произвольной инициализацией. 

Они показывают, что 3D гауссовы функции являются отличным выбором, поскольку они являются дифференцируемым объемным представлением. Однако их можно растеризовать очень эффективно, проецируя их на 2D и применяя стандартное 𝛼-смешивание с использованием эквивалентной модели формирования изображения, как у NeRF. Второй компонент их метода – оптимизация свойств 3D гауссовых функций – 3D позиции, непрозрачности 𝛼, анизотропной ковариации и коэффициентов сферических гармоник (SH), взаимодействующих с этапами адаптивного управления плотностью, где они добавляют и иногда удаляют 3D гауссовы функции во время оптимизации. Процедура оптимизации создает достаточно компактное, неструктурированное и точное представление сцены (1-5 миллионов гауссовых функций для всех протестированных сцен). Третий и последний элемент их метода – решение рендеринга в реальном времени, которое использует быстрые алгоритмы сортировки на GPU, вдохновленные тайловой растеризацией по последним исследованиям. 

Однако, благодаря своему трехмерному гауссовому представлению, они могут выполнять анизотропное сплаттинг, учитывающее порядок видимости – благодаря сортировке и 𝛼- смешиванию – и обеспечивать быстрый и точный обратный проход, отслеживая прохождение стольких отсортированных сплатов, сколько требуется. Вкратце, они вносят следующие вклады:

• Введение анизотропных трехмерных гауссовых функций как высококачественного структурированного представления полей радиации.

• Метод оптимизации свойств трехмерных гауссовых функций, чередующийся с адаптивным контролем плотности, создает высококачественные представления для съемок сцен.

• Быстрый, дифференцируемый подход к рендерингу для графического процессора, учитывающий видимость, позволяет анизотропный сплаттинг и быструю обратную пропагацию для достижения высококачественного синтеза новых видов.

Их результаты на ранее опубликованных наборах данных показывают, что они могут оптимизировать свои трехмерные гауссовы функции на основе многократных съемок и достигать такого же или лучшего качества, чем лучшие из предыдущих подходов к неявным полям радиации. Они также могут достичь скоростей обучения и качества, сравнимых с самыми быстрыми методами и, что важно, обеспечить первый реальный рендеринг высокого качества для синтеза новых видов в реальном времени.