Исследователи из Университета Оксфорд представляют DynPoint алгоритм искусственного интеллекта, предназначенный для ускоренного синтеза новых видов для неограниченных монокулярных видео.

Ускорь свой стиль с алгоритмом искусственного интеллекта DynPoint инновационный синтез новых видов для неограниченных монокулярных видео от исследователей Университета Оксфорд

“`html

Сообщество визуального компьютерного зрения существенно сосредотачивается на новых методах синтеза изображений с новым видом просмотра (VS) из-за его потенциала улучшить искусственную реальность и повысить способность машины понимать визуальные и геометрические аспекты определенных ситуаций. Современные методы, использующие алгоритмы нейронной рендеринга, достигли фотореалистической реконструкции статических сцен. Однако нынешние методы, основанные на эпиполярных геометрических отношениях, лучше всего подходят для статических ситуаций, в то время как реальные сценарии со статическими элементами представляют сложности для этих методов.

Недавние работы в основном сосредоточены на синтезе изображений в динамических условиях с использованием одной или нескольких многослойных перцептронов (MLP) для кодирования пространственно-временной информации о сцене. Один из подходов включает создание всестороннего латентного представления видео на уровне кадра. Однако ограниченная память MLP или других методов представления ограничивает применимость этого подхода к коротким видеороликам, несмотря на его способность давать визуально точные результаты.

Чтобы преодолеть эту ограниченность, исследователи из Университета Оксфорда представили DynPoint. Этот уникальный метод не полагается на изучение латентного канонического представления для эффективной генерации изображений из более длинных монокулярных видео. DynPoint использует явную оценку последовательной глубины и сцены для поверхностных точек, в отличие от традиционных методов, которые кодируют информацию неявно. Информация из нескольких опорных кадров объединяется в целевой кадр с использованием этих оценок. Затем с помощью полученных данных создается иерархическое нейронное облако точек, и виды целевого кадра синтезируются с использованием этого иерархического облака точек.

Этот процесс агрегации поддерживается обучением соответствий между целевыми и опорными кадрами с использованием объединенных данных о глубине и потоке сцены. Чтобы обеспечить быстрый синтез целевого кадра в монокулярном видео, исследователи предоставляют представление для совместной обработки информации из опорных кадров в целевой кадр. Исследования скорости и точности синтеза изображений DynPoint проводятся на наборах данных, таких как Nerfie, Nvidia, HyperNeRF, iPhone и Davis. Предложенная модель продемонстрировала превосходные показатели по точности и скорости, что подтверждается экспериментальными результатами.

“`