Исследователи ByteDance представляют «ImageDream» инновационную модель для генерации трехмерных объектов с использованием изображений и многопросмотрового рассеяния

Исследователи ByteDance представляют «ImageDream» – инновационную модель для создания трехмерных объектов при помощи изображений и многократного рассеивания

Как гласит поговорка “картинка говорит больше, чем тысяча слов”, добавление изображений в качестве второй модальности к 3D-производству дает существенные преимущества перед системами, которые используют только текст. Изображения в основном предоставляют подробную, богатую визуальную информацию, которую язык может описывать только частично или не описывать вовсе. Например, изображение может четко и непосредственно передавать незначительные характеристики, такие как текстуры, цвета и пространственные связи, но для полного представления того же уровня деталей или использования очень длинных объяснений может потребоваться помощь словесного описания. Поскольку система может напрямую ссылаться на фактические визуальные намеки, а не интерпретировать письменные описания, которые могут значительно различаться по сложности и субъективности, такая визуальная специфика помогает создавать более точные и детализированные 3D-модели.

Кроме того, пользователи могут проще и прямо объяснять свои намерения, когда они используют визуальные средства, особенно для тех, кому сложно выразить свои видения словами. Этот мультимодальный подход может служить более широкому спектру творческих и практических применений, объединяя контекстную глубину текста с богатством визуальных данных, чтобы обеспечить более надежный, удобный для пользователя и эффективный процесс 3D-производства. Как полезно использование фотографий в качестве альтернативной модальности для разработки 3D-объектов, также существует несколько трудностей. В отличие от текста, у изображений есть множество дополнительных элементов, таких как цвет, текстура и пространственные связи, что делает их более сложными для анализа и правильного понимания с использованием единственного кодировщика, такого как CLIP.

Более того, значительное изменение в освещении, форме или самозаслонении объекта может привести к синтезу изображения, который может быть более точным и последовательным, что может привести к неполным или туманным 3D-моделям. Для эффективной обработки визуальной информации и обеспечения единообразного внешнего вида во многих ракурсах требуются сложные, требовательные к вычислительной мощности методы обработки изображений. Исследователи преобразовали 2D-изображения предметов в 3D-модели, используя различные методологии диффузионных моделей, такие как Zero123 и другие недавние исследования. Одним из недостатков систем, использующих только изображения, является то, что, хотя синтетические виды кажутся великолепными, восстановленные модели иногда требуют большей геометрической правильности и сложной текстуризации, особенно в отношении задних ракурсов объекта. Главной причиной этой проблемы являются большие геометрические расхождения между производимыми или синтезированными ракурсами.

В результате, несоответствующие пиксели усредняются в конечной 3D-модели в процессе реконструкции, что приводит к размытым текстурам и округленной геометрии. По сути, генерация 3D с помощью визуальной информации является оптимизационной задачей с более строгими ограничениями по сравнению с генерацией на основе текста. Поскольку доступно ограниченное количество 3D-данных, оптимизация 3D-моделей с точными характеристиками становится более сложной, потому что процесс оптимизации имеет тенденцию отклоняться от распределения обучающих данных. Например, если обучающий набор данных содержит различные стили лошадей, создание лошади только на основе текстовых описаний может привести к подробным моделям. Однако создание текстуры нового вида может легко отклоняться от обученных распределений, когда изображение указывает на определенные особенности меха, формы и текстуры. 

Для решения этих проблем исследовательская группа из ByteDance представляет в данной работе ImageDream. Исследовательская группа предлагает многоуровневый контроллер на основе изображений, который может легко интегрироваться в существующую архитектуру, учитывая стандартную координату камеры для различных экземпляров объектов. Должно отображать передний вид объекта с центрированным изображением при использовании стандартных настроек камеры (идентификационное вращение и нулевой перевод). Это упрощает процесс перевода различий на входном изображении в трехмерные координаты. Предоставляя иерархический контроль, многоуровневый контроллер упрощает процесс передачи информации, направляя модель диффузии от входного изображения к каждому блоку архитектуры.

Рисунок 1: С помощью всего одного фото новаторская система ImageDream создает высококачественные 3D-модели со всех ракурсов. По сравнению с более ранними методами, такими как Magic123, она значительно повышает качество геометрии 3D. Более важно то, что по сравнению с MVDream, она сохраняет отличное соответствие между текстом и изображением заданного изображения. Ниже показаны восемь ракурсов объекта, созданных с использованием различных методов, а также соответствующие карты нормалей, нарисованные с использованием модели, созданной с помощью ImageDream, отображаемые в последней строке.

По сравнению с моделями, строго ограниченными по тексту, такими как MVDream, ImageDream превосходит их в создании объектов с правильной геометрией из заданного изображения, как показано на рис. 1. Это позволяет пользователям использовать хорошо развитые модели генерации изображений для улучшения выравнивания изображений и текста. В отношении качества геометрии и текстуры, ImageDream превосходит текущие передовые методы (SoTA) генераторов трехмерных моделей одного изображения без обучения, таких как Magic123. ImageDream превосходит предыдущие передовые методы, как показано их тщательной оценкой в экспериментальной части, которая включает количественные оценки и качественные сравнения через пользовательские тесты.