Dreamcraft3D Иерархическое 3D-поколение с бутстрапированным диффузионным приоритетом
Dreamcraft3D Иерархическое 3D-поколение с бустированным диффузионным приоритетом
Модели искусственного интеллекта, основанные на генерации, уже довольно долго являются горячей темой обсуждения в индустрии искусственного интеллекта. Недавний успех двухмерных генеративных моделей прокладывает путь для методов, которые мы используем сегодня для создания визуального контента. Хотя сообщество искусственного интеллекта достигло значительного успеха с двухмерными генеративными моделями, генерация трехмерного контента остается главной проблемой для глубоких генеративных фреймворков искусственного интеллекта. Это особенно верно, поскольку спрос на сгенерированный трехмерный контент достигает исторического максимума, под стимулом широкого спектра визуальных игр, приложений, виртуальной реальности и даже кино. Следует отметить, что хотя существуют генеративные фреймворки искусственного интеллекта для трехмерной генерации, демонстрирующие приемлемые результаты для определенных категорий и задач, они не в состоянии эффективно генерировать трехмерные объекты. Это является следствием недостатка обширных трехмерных данных для обучения таких фреймворков. Недавно разработчики предложили использовать руководство, предлагаемое предобученными моделями искусственного интеллекта для преобразования текста в изображение, подход, который показал многообещающие результаты.
В этой статье мы рассмотрим фреймворк DreamCraft3D, иерархическую модель для генерации трехмерного контента, которая создает логически связанные и высококачественные трехмерные объекты. Фреймворк DreamCraft3D использует двумерное изображение в качестве руководства на этапе моделирования геометрии, улучшая текстуру с акцентом на устранение имеющихся проблем с согласованностью, с которыми сталкиваются существующие фреймворки и методы. Кроме того, фреймворк DreamCraft3D использует модель диффузии, зависящую от вида, для выборки оценок, что помогает моделированию геометрии, способствующей согласованной отрисовке.
Мы более подробно рассмотрим фреймворк DreamCraft3D для генерации трехмерного контента. Кроме того, мы исследуем концепцию использования предобученных моделей преобразования текста в изображение для генерации трехмерного контента и рассмотрим, как фреймворк DreamCraft3D стремится использовать этот подход для создания реалистичного трехмерного контента.
DreamCraft3D: Введение
DreamCraft3D – это иерархический конвейер для создания трехмерного контента. Фреймворк DreamCraft3D пытается использовать передовую модель преобразования текста в изображение (T2I), чтобы создавать высококачественные двумерные изображения с использованием текстовых подсказок. Такой подход позволяет фреймворку DreamCraft3D максимально использовать возможности передовых двумерных моделей диффузии для представления визуальной семантики, описанной в текстовой подсказке, сохраняя творческую свободу, которую предоставляют эти двумерные генеративные фреймворки искусственного интеллекта. Полученное изображение затем преобразуется в трехмерное с помощью каскадного увеличения геометрической текстуры и моделирования геометрии, и специализированные методы применяются на каждом этапе путем декомпозиции задачи.
- Этан Гинсберг, сооснователь Martian – Интервью Серии
- Будущее искусственного интеллекта индексирование ума, создание лучших искусственных интеллектов
- Как выиграть подбрасывание монетки? Каждый раз без исключения
При работе с геометрией фреймворк DreamCraft3D сосредотачивается на глобальной трехмерной структуре и согласованности множественных представлений, что позволяет делать определенные компромиссы в текстурах изображений. После устранения проблем, связанных с геометрией, фокус фреймворка переносится на оптимизацию согласованных и реалистичных текстур путем реализации 3D-ориентированной модели диффузии, которая стимулирует подход к оптимизации трехмерных изображений. Существуют два ключевых принципа разработки для двух фаз оптимизации – моделирование геометрии и увеличение текстуры.
Все сказанное позволяет охарактеризовать DreamCraft3D как генеративный фреймворк искусственного интеллекта, использующий иерархический конвейер для создания трехмерного контента, преобразующий двумерные изображения в трехмерные, сохраняя при этом целостную трехмерную согласованность.
Использование предобученных моделей преобразования текста в изображение
Идея использования предобученных моделей преобразования текста в изображение для создания трехмерного контента была впервые представлена в 2022 году в рамках фреймворка DreamFusion. Фреймворк DreamFusion пытался с использованием потери SDS (Score Distillation Sample) оптимизировать трехмерный фреймворк таким образом, чтобы изображения с разных точек зрения соответствовали распределениям изображений, зависящих от текста, интерпретированным эффективной моделью диффузии текста в изображение. Хотя подход DreamFusion давал приемлемые результаты, возникали две основные проблемы – размытость и пересыщенность. Чтобы справиться с этими проблемами, в последние годы были предложены различные стратегии оптимизации поэтапно, направленные на улучшение потери дистилляции двумерных изображений, что в конечном итоге приводит к лучшему качеству и реалистичности создаваемых трехмерных изображений.
Однако, несмотря на последние успехи таких фреймворков, они не могут сравниться с способностью двумерных генеративных фреймворков синтезировать сложный контент. Кроме того, такие фреймворки часто подвержены “Проблеме Януса”, состоянию, когда трехмерные изображения, которые кажутся правдоподобными индивидуально, выявляют стилистические и семантические несоответствия, при рассмотрении в целом.
Для решения проблем, возникающих в предыдущих работах, фреймворк DreamCraft3D исследует возможность использования голистической иерархической технологии генерации 3D-контента и черпает вдохновение из ручного художественного процесса, при котором концепт сначала набрасывается на бумагу в виде 2D-чертежа, после чего художник создает грубую геометрию, уточняет геометрические детали и создает качественные текстуры. Следуя этому подходу, фреймворк DreamCraft3D разбивает тяжелые задачи по генерации 3D-контента или изображений на управляемые этапы. Он начинает с создания качественного 2D-изображения с использованием текстового описания, затем использует улучшение текстур и моделирование геометрии для переноса изображения в трехмерное пространство. Разбиение процесса на последующие этапы позволяет фреймворку DreamCraft3D максимально использовать потенциал иерархической генерации, что в конечном итоге приводит к созданию 3D-изображений высокого качества.
На первом этапе фреймворк DreamCraft3D использует моделирование геометрии для создания последовательных и правдоподобных 3D-геометрических форм, используя 2D-изображение в качестве образца. Кроме того, на этом этапе фреймворк не только использует SDS-потерю для фотометрических потерь и новых видов в образце, но также предлагает широкий спектр стратегий для обеспечения геометрической согласованности. Фреймворк стремится использовать Zero-1-to-3, модель перевода изображений с учетом ракурса стандартного назначения, чтобы использовать образец изображения для моделирования распределения новых видов. Кроме того, фреймворк также переходит от представления неявной поверхности к представлению сетки для грубой и точной геометрической оптимизации.
На втором этапе фреймворк DreamCraft3D использует подход с дистилляцией оценки для улучшения текстур изображения, так как текущие модели диффузии, зависящие от видов зрения, обучены на ограниченном количестве 3D-данных, что часто ограничивает их производительность и точность в сравнении с 2D-моделями диффузии. Благодаря этому ограничению, фреймворк DreamCraft3D проводит донастройку модели диффузии с использованием многовидовых изображений 3D-экземпляра, подлежащего оптимизации. Такой подход помогает фреймворку улучшить текстуры 3D-содержимого, сохраняя согласованность между видами. Когда модель диффузии обучается на этих многовидовых образованиях, она обеспечивает лучшую ориентацию для оптимизации текстур 3D, что позволяет фреймворку DreamCraft3D достигать высокого уровня детализации текстур при сохранении согласованности между видами.
Как видно на рисунках, фреймворк DreamCraft3D способен создавать креативные 3D-изображения и контент с реалистичными текстурами и сложными геометрическими структурами. На первом изображении показано тело Сон Гоку, персонажа аниме, с головой бегущего дикого кабана, в то время как второе изображение изображает бигля в наряде детектива. Далее приведены некоторые дополнительные примеры.
DreamCraft3D: Работа и архитектура
Фреймворк DreamCraft3D стремится использовать передовую генеративную систему T2I или текст в изображение для создания качественных 2D-изображений с использованием текстового описания. Такой подход позволяет максимально использовать возможности передовых 2D-моделей диффузии для представления визуальной семантики, описанной в текстовом описании, при сохранении творческой свободы, предоставляемой этими 2D-генеративными системами искусственного интеллекта. Полученное изображение затем переносится в 3D с помощью каскадной геометрической улучшающей текстуру и моделирования геометрии, и специализированные методы применяются на каждом этапе, разбивая задачу на части. Следующее изображение кратко описывает работу фреймворка DreamCraft3D.
Давайте более подробно рассмотрим основные аспекты проектирования улучшения текстур и моделирования геометрии.
Моделирование геометрии
Моделирование геометрии – это первый этап, на котором фреймворк DreamCraft3D пытается создать 3D-модель таким образом, чтобы она соответствовала внешнему виду образца на том же ракурсе, обеспечивая максимальную правдоподобность даже при разных углах обзора. Для достижения максимальной правдоподобности фреймворк использует SDS-потерю, чтобы поощрять правдоподобное отображение изображения для каждого индивидуального выборочного вида, который предварительно обученная модель диффузии может распознать. Кроме того, для эффективного использования руководства, предоставленного образцовым изображением, фреймворк штрафует фотометрические различия между образцовым и воссозданными изображениями на образцовом виде, и потеря рассчитывается только в передней части обзора. Кроме того, для обеспечения разреженности сцены фреймворк также применяет потерю для рендеринга силуэта. Несмотря на это, поддержание согласованного внешнего вида и семантики при обзорах сзади по-прежнему остается проблемой, поэтому фреймворк использует дополнительные методы для создания подробной и последовательной геометрии.
3D Оптический приоритет на основе распространения в среде сосуществующей с 3D
Методы 3D оптимизации, использующие только периодическую наблюдаемость, являются недоопределенными, что является основной причиной того, почему фреймворк DreamCraft3D использует модель сосуществующего распространения Zero-1-to-3 в качестве улучшенной модели сознательного взгляда на точку зрения, так как она обучается на более крупномасштабных 3D-данных. Кроме того, фреймворк Zero-1-to-3 является точно настроенной моделью распространения, которая галлюцинирует изображение в связи с положением камеры, учитывая исходное изображение.
Прогрессивное обучение просмотра
Производство свободных видов непосредственно в 360 градусов может вызывать геометрические артефакты или несоответствия, такие как дополнительная нога на стуле, событие, которое может быть объяснено неоднозначностью, присущей одному исходному изображению. Для решения этой проблемы фреймворк DreamCraft3D постепенно увеличивает количество обучаемых видов, после чего хорошо установленная геометрия постепенно распространяется для получения результатов в 360 градусов.
Время диффузии типа этап отожжения
В рамках фреймворка DreamCraft3D используется стратегия этапного отожжения времени диффузии в попытке согласования грубой к тонкой прогрессии 3D оптимизации. В начале процесса оптимизации фреймворк отдает приоритет выбору более крупного времени диффузии, чтобы обеспечить глобальную структуру. По мере продвижения фреймворк в процессе обучения, он линейно уменьшает диапазон выборки на протяжении сотен итераций. Благодаря такой стратегии отожжения, фреймворк способен установить правдоподобную глобальную геометрию в начальных этапах оптимизации, перед уточнением структурных деталей.
Детализированное улучшение структуры
Фреймворк DreamCraft3D сначала оптимизирует неявное представление поверхности для установления грубой структуры. Затем фреймворк использует этот результат и сопоставляет его с деформируемой тетраэдральной сеткой или DMTet для инициализации текстурированного 3D-представления сетки, которое разделяет обучение текстуры и геометрии. Когда фреймворк заканчивает улучшение структуры, модель может сохранить детали высокой частоты, полученные из исходного изображения, оптимизируя только текстуры.
Улучшение текстуры с использованием выборочной выборки оценок
Хотя этап формирования геометрии акцентирует на обучении детализированной и связной геометрии, это в определенной степени размывает текстуру, что может быть результатом использования фреймворка, оперирующего на грубом разрешении 2D-модели, вместе с ограниченной резкостью от предлагаемой 3D-модели рассеивания. Кроме того, общие проблемы с текстурой, включая пересатурацию и перезапуск, возникают в результате большой безклассификаторной ориентации.
Фреймворк использует VSD или уменьшение вариационных оценок оценок для увеличения реалистичности текстур. В этой конкретной фазе фреймворк выбирает стабильную модель диффузии для получения высокоразрешающих градиентов. Кроме того, фреймворк закрепляет тетраэдральную сетку, чтобы создать реалистичную визуализацию для оптимизации общей структуры сетки. Во время стадии обучения фреймворк DreamCraft3D не использует модель Zero-1-to-3, так как она негативно влияет на качество текстур, и такая несогласованность текстур может быть повторяющейся, что приводит к странноватым 3D результатам.
Эксперименты и результаты
Для оценки производительности фреймворка DreamCraft3D он сравнивается с существующими передовыми фреймворками, анализируются качественные и количественные результаты.
Сравнение с базовыми моделями
Для оценки производительности фреймворк DreamCraft3D сравнивается с 5 передовыми фреймворками, включая DreamFusion, Magic3D, ProlificDreamer, Magic123 и Make-it-3D. В тестовой выборке содержится 300 входных изображений, которые являются смесью реальных изображений и тех, сгенерированных фреймворком Stable Diffusion. У каждого изображения в тестовой выборке есть текстовый промпт, предсказанная карта глубины и альфа-маска для переднего плана. Фреймворк получает текстовые указания для реальных изображений из фреймворка для подписи изображений.
Качественный анализ
На следующем изображении сравнивается фреймворк DreamCraft3D с текущими базовыми моделями, и, как видно, фреймворки, основанные на подходе от текста к 3D, часто сталкиваются с проблемами согласованности многократного просмотра.
С одной стороны, у вас есть фреймворк ProlificDreamer, который предлагает реалистичные текстуры, но он не справляется с созданием правдоподобного 3D-объекта. Фреймворки, такие как Make-it-3D, основанные на методах “изображение в 3D”, умеют создавать высококачественные фронтальные виды, но не могут сохранить идеальную геометрию для изображений. Изображения, сгенерированные фреймворком Magic123, обладают лучшей геометрической регуляризацией, но они создают слишком насыщенные и сглаженные геометрические текстуры и детали. В сравнении с этими фреймворками, фреймворк DreamCraft3D, который использует метод дистилляции оценочного балла на основе коэффициента запуска, не только поддерживает семантическую последовательность, но и повышает общую разнообразность воображения.
Количественный анализ
В попытке создать убедительные 3D-изображения, которые не только соответствуют входному референсному изображению, но и последовательно передают семантику с разных точек зрения, техники, используемые фреймворком DreamCraft3D, сравниваются с базовыми моделями, и процесс оценки основан на четырех метриках: PSNR и LPIPS для измерения достоверности при эталонном ракурсе, контекстное расстояние для оценки согласованности на пиксельном уровне и CLIP для оценки семантической связности. Результаты представлены на следующем изображении.
Заключение
В данной статье мы обсудили DreamCraft3D, иерархическую платформу для создания 3D-контента. Фреймворк DreamCraft3D целью имеет использование передового текст-изображение (Text-to-Image) генерирующего фреймворка для создания высококачественных 2D-изображений с использованием текстовых подсказок. Этот подход позволяет фреймворку DreamCraft3D максимально использовать возможности передовых 2D-моделей диффузии для представления визуальной семантики, описанной в текстовой подсказке, сохраняя при этом творческую свободу, предоставляемую этими 2D генеративными фреймворками искусственного интеллекта. Полученное изображение затем преобразуется в 3D при помощи каскадного усиления геометрических текстур и фаз геометрической моделировки. На каждом этапе применяются специализированные техники, поддерживаемые разложением проблемы. В результате такого подхода фреймворк DreamCraft3D может создавать высококачественные и согласованные 3D-объекты с убедительными текстурами, видимыми с разных ракурсов.