Исследователи из Сеульского национального университета представляют LucidDreamer революционный подход искусственного интеллекта к созданию трехмерных сцен виртуальной реальности без ограничений области применения с использованием моделирования на основе

Сеульский национальный университет представляет LucidDreamer - революционный подход искусственного интеллекта для создания безграничных трехмерных сцен виртуальной реальности на основе моделирования

Развитие коммерческих платформ смешанной реальности и быстрый прогресс в технологии трехмерной графики сделали создание высококачественных трехмерных сцен одним из основных вызовов в компьютерном зрении. Это требует возможности преобразовывать любые входные данные, такие как текст, RGB и RGBD изображения, в разнообразные реалистичные 3D сценарии. Несмотря на попытки создания 3D объектов и сценариев напрямую с использованием диффузионной модели в виде вокселей, облака точек и неявного нейронного представления, результаты показали ограниченное разнообразие и качество из-за ограничений в обучающих данных, основанных на 3D сканах. Использование предварительно обученной модели диффузии генерации изображений, такой как Stable Diffusion, для создания разнообразных и превосходных 3D сценариев – это один из подходов к решению проблемы. С использованием данных, извлеченных из массового тренировочного набора, такая громадная модель создает правдоподобные изображения, но не может гарантировать согласованность множественных видов среди генерируемых изображений.

Исследовательская группа из Сеульского национального университета представляет в этой статье метод LucidDreamer, который использует трехмерное гауссово смещение и стабильную диффузию для создания разнообразных высококачественных 3D сценариев из различных видов входных данных, включая текст, RGB и RGBD. Мечта и выравнивание – это два шага, которые чередуются, чтобы создать одно большое облако точек, используя метод LucidDreamer. Исходное изображение и соответствующая карта глубины создают начальное облако точек перед началом двух процессов. Создание геометрически согласованных изображений и их проекция на трехмерное пространство – оба аспекта опыта мечты. Перед проекцией области видимого облака точек в новой системе координат камеры на новую плоскость камеры, исследовательская группа перемещает камеру вдоль заранее определенной траектории. Затем проекционное изображение передается в сеть восполнения на основе стабильной диффузии, которая использует изображение для создания общей идеи. Подняв восстановленное изображение и предсказанную карту глубины в трехмерное пространство, создается новый набор трехмерных точек. Затем, плавно перемещая новое положение точек в трехмерном пространстве, предложенная техника выравнивания плавно соединяет их с текущим облаком точек. Исследовательская группа использует огромное облако точек, полученное после проведения вышеописанных процедур достаточное количество раз, в качестве начальных точек SfM, чтобы оптимизировать гауссовы смещения.

По сравнению с предыдущими представлениями, непрерывное представление трехмерных гауссовых смещений устраняет разрывы, вызванные разницей в глубине в облаке точек, позволяя отображать более фотореалистичные 3D сценарии. На рисунке 1 показан результат создания 3D-сценария с помощью простого метода LucidDreamer. По сравнению с текущими моделями, LucidDreamer показывает значительно более реалистичные и потрясающие результаты. Лучшие визуальные эффекты наблюдаются во всех наборах данных при сравнении созданных 3D-сцен, условием которых являются изображения из ScanNet, NYUDepth и Stable Diffusion.

Рисунок 1: Исследователи создают LucidDreamer, базовую структуру для создания высококачественных, согласованных в множественных видах 3D сценариев из текста, RGB и RGBD входных типов. После преобразования RGBD изображения в облако точек LucidDreamer повторяет два процесса, чтобы расширить и сохранить свою модель мира: выравнивание и мечта. С использованием представления гауссового смещения оптимизируется 3D сцена.

Их модель способна создавать 3D сценарии в различных жанрах, включая реалистичные, аниме, Lego, открытые и закрытые пространства. Их концепция поддерживает множество областей и позволяет одновременно использовать несколько входных условий. Например, она создает 3D сцену на основе текста и добавляет изображение, когда текст и изображение используются вместе. Это позволяет избежать сложностей при создании целевой сцены полностью из текста и устраняет необходимость в обширных выборках. Кроме того, метод позволяет изменять входные условия в процессе создания трехмерного пространства. Такие функции стимулируют творчество, предоставляя возможность создавать разнообразные 3D среды.

Они внесли следующие вклады для подведения итогов.

• Исследовательская команда представляет LucidDreamer – инструмент для производства трехмерных сцен высокого качества без привязки к определенной области применения. Он использует явное трехмерное представление, оценку глубины и стабильную диффузию для улучшения обобщения области в синтезе трехмерных сцен.

• Их подход к Dreaming создает облака точек в качестве геометрических руководств для каждого производства картин, чтобы создавать многопроекционные изображения с помощью Stable Diffusion. Полученные фотографии умело интегрируются с помощью их техники Alignment для создания связной трехмерной сцены.

• Их методология позволяет пользователям генерировать трехмерные ландшафты различными способами, поддерживая несколько типов входных данных (текст, RGB и RGBD), позволяя использовать несколько входов одновременно и изменять входные данные во время процесса генерации.