Исследователи Adobe предлагают DMV3D новый подход к генерации 3D, использующий модель большой реконструкции 3D на основе трансформатора для удаления шума с множественных видов диффузии.

Исследователи Adobe представляют новый подход DMV3D для генерации 3D с использованием модели большой реконструкции на основе трансформатора для устранения шума при множественном диффузии видов

Возникла общая проблема в создании трехмерных активов для дополненной реальности (AR), виртуальной реальности (VR), робототехники и игр. Всплеск популярности трехмерных моделей диффузии, которые упрощают сложный процесс создания трехмерных активов, не обходится без затруднений. Для обучения таких моделей требуется доступ к точным трехмерным моделям или облакам точек, что может быть сложно для реальных изображений. Кроме того, подход диффузии в скрытой трехмерной области часто приводит к сложной и сложной для денойзинга латентной области в разнообразных трехмерных наборах данных, создавая препятствия для высококачественной отрисовки.

Некоторые существующие решения справляются с этой задачей, но часто требуют много ручной работы и оптимизации процессов. Группа исследователей из Adobe Research и Stanford работает над тем, чтобы сделать процесс генерации трехмерных моделей быстрее, реалистичнее и более универсальным. Недавняя статья представляет новый подход под названием DMV3D, одномодельную диффузионную модель для генерации трехмерных нейронных излучательных полей (NeRF) из текста или одного изображения, что существенно сокращает время создания трехмерных объектов.

Существенными преимуществами DMV3D являются новаторская одномодельная диффузионная структура, использующая многопредставления двумерной модели диффузии для генерации трехмерных моделей. Они также ввели большую модель восстановления (LRM), многопредставления денойзера, который восстанавливает шумовые трехплоскостные NeRF из шумных многопредставлений изображений. Модель обеспечивает общий вероятностный подход для генерации высококачественных трехмерных моделей из текста и восстановления по одному изображению, достигая быстрого непосредственного вывода модели, занимающего всего около 30 секунд на одном графическом процессоре A100.

DMV3D интегрирует восстановление и отрисовку 3D NeRF в свой денойзер, создавая многопредставленную двумерную модель диффузии, обученную без непосредственного наблюдения за 3D пространством. Это устраняет необходимость отдельного обучения кодировщиков 3D NeRF для диффузии в латентном пространстве и упрощает оптимизацию процесса для каждого актива. Исследователи стратегически используют ограниченный набор из четырех многопредставлений, окружающих объект, эффективно описывая 3D объект без значительных самозаслонений.

Используя большие трансформаторные модели, исследователи решают сложную задачу разреженной трехмерной реконструкции. Основываясь на последней большой модели восстановления трехмерных изображений (LRM), они представляют новую совместную модель восстановления и денойзинга, способную работать с различными уровнями шума в процессе диффузии. Эта модель интегрируется в многопредставленную двумерную модель диффузии как денойзер многопредставления изображений.

Обученная на масштабных наборах данных, включающих синтетические рендеринги и реальные захваты, DMV3D показывает способность генерировать одноэтапное 3D в приблизительно 30 секунд на одном графическом процессоре A100. Он достигает результатов, соответствующих последним достижениям в одноизображенной 3D реконструкции. Эта работа предлагает новый взгляд на задачи генерации 3D, объединяя миры двухмерных и трехмерных генеративных моделей, объединяя трехмерную реконструкцию и генерацию. Ее возможности выходят за рамки прямого применения, открывая двери для разработки базовых моделей решения различных задач в трехмерном зрении и графике.