Эта научная статья вводит MVControl архитектуру нейронной сети, революционирующую управляемую генерацию многопредставлений изображений и создание 3D-контента

Революционная архитектура нейронной сети MVControl контролируемая генерация многопредставлений изображений и создание 3D-контента

В последнее время произошли замечательные совершенствования в производстве изображений 2D. Входные текстовые подсказки делают процесс создания графики высокой степени реалистичности простым. Удачный опыт в создании текст-изображение редко переносится в область текст-3D из-за необходимости в 3D-тренировочных данных. Благодаря прекрасным свойствам моделей диффузии и дифференцируемым 3D-представлениям, недавние методы на основе оптимизации кристаллизации оценок (СДО) стремятся извлекать 3D-знания из предварительно обученной большой 3D-генеративной модели текст-изображение и демонстрируют впечатляющие результаты вместо того, чтобы обучать большую 3D-генеративную модель текст-3D с нуля с использованием большого количества 3D-данных. DreamFusion является примером нового подхода к созданию 3D-материалов. 

За последний год методологии быстро эволюционировали согласно парадигме дистилляции 2D в 3D. Для повышения качества генерации было предложено множество исследований, применяющих несколько этапов оптимизации, одновременно оптимизируя диффузию перед 3D-представлением, формулируя алгоритм кристаллизации оценок с большей точностью или улучшая детали всей последовательности. Хотя приведенные выше подходы могут давать отличные текстуры, обеспечение согласованности представления при создании 3D-контента сложно, так как 2D-диффузионный предыдущий шаг не зависит от представления. В результате было предпринято несколько попыток внедрить многообъектное представление в предварительно обученные модели диффузии. 

Базовая модель затем объединяется с управляющей сетью для обеспечения контролируемого создания текст-многообъектных изображений. Аналогично исследовательская группа обучила только управляющую сеть, а веса MVDream оставила замороженными. Опытным путем было обнаружено, что относительное положение условного изображения относительно исходного изображения лучше всего подходит для контроля генерации текст-многообъектного изображения, даже если MVDream обучается с учетом позиции камеры, описанной в абсолютной системе координат мира. Это противоречит описанию предварительно обученной сети MVDream. Кроме того, согласованность представления может быть достигнута только путем прямого использования управляющей сети ControlNet 2D для взаимодействия с базовой моделью, так как ее механизм условия создан для генерации одиночного изображения и необходимо учитывать многообъектную ситуацию. 

Базовая модель затем объединяется с управляющей сетью для обеспечения контролируемого создания текст-многообъектных изображений. Аналогично исследовательская группа обучила только управляющую сеть, а веса MVDream оставила замороженными. Опытным путем было обнаружено, что относительное положение условного изображения относительно исходного изображения лучше всего подходит для контроля генерации текст-многообъектного изображения, даже если MVDream обучается с учетом позиции камеры, описанной в абсолютной системе координат мира. Это противоречит описанию предварительно обученной сети MVDream. Кроме того, согласованность представления может быть достигнута только путем прямого использования управляющей сети ControlNet 2D для взаимодействия с базовой моделью, так как ее механизм условия создан для генерации одиночного изображения и необходимо учитывать многообъектную ситуацию. 

Для решения этих проблем исследовательская группа из Университета Чжэцзян, Университета Вестлейк и Университета Тунцзи создала уникальную методику кондиционирования, основанную на первоначальной архитектуре ControlNet, которая является простой, но успешно обеспечивает контролируемую генерацию текст-многообъектных изображений. Часть обширных 2D-наборов данных LAION и 3D-наборы данных Objaverse используются для обучения MVControl. В этом исследовании исследовательская группа рассмотрела использование карты границ в качестве условного входа. Тем не менее, их сеть не ограничивается возможностью использования различных видов входных условий, таких как карты глубины, эскизы и т.д. После обучения исследовательская группа может использовать MVControl для предоставления 3D-приоритетов для контролируемого создания 3D-материалов. В частности, исследовательская группа использует гибридный диффузионный приоритет на основе сети MVControl и предварительно обученной модели Stable-Diffusion. Процесс генерации происходит от грубого к тонкому этапу, при этом исследовательская группа оптимизирует только текстуру на этапе тонкой обработки, когда у них имеется приличная геометрия на грубом этапе. Их комплексные тесты показывают, что предложенный подход позволяет использовать входное условное изображение и письменное описание для создания высококачественных, детализированных контролируемых многообъектных изображений и 3D-контента. 

Подводя итог, следующие основные достижения исследовательской группы:

• После обучения их сети она может использоваться в качестве компонента гибридного диффузионного перед контрольным синтезом текста в 3D-контенте с использованием оптимизации SDS.

• Исследовательская группа предлагает уникальную архитектуру сети для обеспечения детализированного контролируемого создания текст-многообъектных изображений. 

• Их подход может создавать изображения и 3D-объекты с высокой степенью достоверности, которые могут быть детально управляемыми при помощи изображения и текстового указания вводных условий, как показывают обширные результаты экспериментов.

• Кроме того, MVControl network может быть полезной для различных применений в области трехмерного видения и графики, помимо создания 3D-объектов при оптимизации SDS.