Исследователи из ByteDance и UCSD предлагают модель многопредставлений диффузии, которая способна генерировать набор многопредставлений изображений объекта/сцены из любого заданного текста.

Исследователи из ByteDance и UCSD предложили модель многопредставлений диффузии для генерации изображений объекта/сцены из текста.

Несмотря на то, что создание 3D-контента является важным этапом в современной игровой и медиаиндустрии, оно требует много времени и навыков от профессиональных дизайнеров для создания одного 3D-объекта. Таким образом, система, которая позволяет непрофессиональным пользователям легко создавать 3D-материалы, является очень ценной. Существуют три категории существующих техник создания 3D-объектов: создание на основе шаблонов, 3D-генеративные модели и 2D-подъемные техники. Созданный материал этих техник часто ограничивается несколькими категориями, большинство из которых являются обычными объектами с простой топологией и текстурами из внешнего мира.

Однако в бизнесе популярные 3D-активы часто сочетают сложные, креативные и возможно нереалистичные структуры и стили. Недавние исследования показывают, что предварительно обученные 2D-модели генерации могут быть использованы для создания 3D-моделей с использованием 2D-подъемных техник. Обычные представления включают системы Dreamfusion и Magic3D, которые используют 2D-модели диффузии как надзор для улучшения 3D-представления, такого как NeRF, с использованием выборки дистилляции оценки (SDS). Эти 2D-модели, разработанные с использованием крупномасштабных наборов данных из 2D-изображений, обладают выдающейся обобщаемостью и могут создавать гипотетические и невиданные ситуации, детали которых могут быть определены с помощью текстового ввода, что делает их эффективными инструментами для создания эстетических 3D-активов.

Однако эти модели могут предоставлять только однообразное наблюдение, и создаваемые активы легко подвержены проблеме согласованности между видами, так как у них есть только 2D-знание. Из-за этого генерация является неустойчивой, и продукты часто имеют серьезные артефакты. Также существуют проблемы с 2D-подъемными методами, так как дистилляция оценки сложна без полного многовидового знания или 3D-осведомленности. Эти проблемы включают (1) проблему Януса с множеством лиц. Система регулярно повторяет содержимое, представленное в текстовом запросе. (2) Расплывание контента между различными точками зрения. Примеры показаны на рисунке 1. Существует несколько возможных причин для многогранной проблемы. Например, некоторые предметы, такие как лезвия, могут быть практически незаметными при определенных углах обзора.

Рисунок 1 иллюстрирует типичные подходы 2D-подъемных техник для проблем согласованности между видами при создании 3D-моделей. Слева вы можете увидеть “Орел-белоголовик, вырезанный из дерева”, который имеет два лица. Справа: “фотография плиты с жареной курицей и вафлями с кленовым сиропом”, где курица постепенно превращается в вафлю.

Однако с других точек зрения важные аспекты персонажа или животного могут быть скрытыми или затененными. 2D-модель диффузии может оценивать эти вещи только с некоторых возможных точек зрения, что приводит к предоставлению избыточного и несогласованного материала. Исследователи из ByteDance и UCSD предлагают многовидовые модели диффузии в качестве решения этих проблем, которые одновременно создают набор многовидовых изображений, согласованных друг с другом. Они в основном сохраняют архитектуру 2D-модели диффузии для генерации множественных изображений. Это позволяет нам унаследовать обобщаемость ранее изученных 2D-моделей диффузии для передачи знаний. Они создают набор многовидовых изображений из реального 3D-набора данных, называемого обратным, чтобы гарантировать согласованность между видами их модели.

Они обнаружили, что модель может достигать высокой согласованности и обобщаемости, одновременно обучая ее на реальных фотографиях и многовидовых изображениях. Они также используют многовидовую дистилляцию оценки для применения этих моделей к созданию 3D-контента. В отличие от однообразных 2D-моделей диффузии, многовидовая наблюдаемость их модели оказывается гораздо более стабильной. Они также могут создавать гипотетические, скрытые 3D-содержимое с использованием чистых 2D-моделей диффузии. Они используют свою многовидовую модель диффузии, которую они адаптировали из DreamBooth и DreamBooth3D, для извлечения идентификационных данных из набора предоставленных фотографий, и она демонстрирует прочную согласованность между видами после небольшой настройки на нескольких показанных фотографиях. Их модель, MVDream, эффективно создает 3D-модели Nerf без проблемы Януса при включении в процесс создания 3D-контента. Она превосходит или равна разнообразию, представленному в других передовых техниках.