LucidDreamer высококачественная генерация текста в 3D при помощи сопоставления интервального балла

LucidDreamer высококачественное генерирование 3D текста с использованием интервального балла

Последние достижения в области генеративных искусственных интеллектуальных платформ, основанных на тексте и 3D, являются значительным вехой в генеративных моделях. Они открывают новые возможности для создания 3D-ресурсов в различных реальных сценариях. Цифровые 3D-ресурсы теперь занимают незаменимое место в нашем цифровом присутствии, обеспечивая всестороннюю визуализацию и взаимодействие с сложными средами и объектами, отражающими наши реальные опыты. Эти генеративные платформы AI 3D применяются в различных областях, включая анимацию, архитектуру, игры, дополненную и виртуальную реальность и многое другое. Они также широко используются на онлайн-конференциях, в розничной торговле, образовании и маркетинге.

Однако, несмотря на потенциал этих достижений в генеративных рамках текста и 3D, обширное использование 3D-технологий сопряжено с основной проблемой. Генерация высококачественных 3D-изображений и медиа-контента все еще требует значительного времени, усилий, ресурсов и квалифицированных знаний. Даже при соблюдении этих требований генерация текста в 3D часто не удается создать детализированные и высококачественные 3D-модели. Эта проблема рендеринга и 3D-генерации низкого качества наиболее распространена в рамках, использующих метод Score Distillation Sampling (SDS). В этой статье будет рассмотрены значительные недостатки, наблюдаемые в моделях, использующих метод SDS, который вводит несоответствия и низкокачественные направления обновления, вызывая излишнюю сглаживающую эффект на созданный результат. Мы также познакомимся с рамкой LucidDreamer, новым подходом, который использует метод Interval Score Matching (ISM) для преодоления проблемы излишнего сглаживания. Мы рассмотрим архитектуру модели и ее производительность по сравнению с передовыми генеративными рамками текста и 3D. Итак, приступим.

LucidDreamer3D: Введение в 3D-генерацию с использованием метода Interval Score Matching

Одной из основных причин, почему модели 3D-генерации стали центром внимания в индустрии генеративного искусственного интеллекта, является их широкое применение в различных областях и отраслях, и их способность производить 3D-контент в реальном времени. Благодаря своему широкому практическому применению разработчики предложили множество подходов к созданию 3D-контента, из которых выделяются рамки генерации текста в 3D благодаря их способности использовать только текстовые описания для создания воображаемых 3D-моделей. Эти рамки достигают этого, используя предварительно обученную модель рассеивания изображений для получения «сильного» изображения перед обучением параметризованной нейронной 3D-модели, что позволяет постоянно создавать 3D-изображения, соответствующие тексту. Эта способность создавать постоянные 3D-изображения обусловлена использованием метода Score Distillation Sampling и позволяет SDS действовать как основной механизм для преобразования 2D-результатов моделей рассеивания в их 3D-аналоги, что позволяет обучать 3D-модели без использования тренировочных изображений. Несмотря на свою эффективность, генеративные рамки искусственного интеллекта 3D, использующие метод SDS, часто страдают от проблем искажения и излишнего сглаживания, что затрудняет практическую реализацию 3D-генерации высокой степени детализации.

Чтобы справиться с проблемами излишнего сглаживания, рамка LucidDreamer реализует подход ISM или Interval Score Matching, новый подход, который использует два эффективных механизма. Во-первых, метод ISM использует метод инверсии DDIM для смягчения эффекта усреднения, вызванного несоответствиями фиктивных истинностей и генерации обратимой траектории диффузии. Во-вторых, вместо сопоставления изображений, созданных 3D-моделью, с фиктивными истинностями, метод ISM сопоставляет их между двумя интервальными шагами в траектории диффузии, что помогает избежать высокой ошибки реконструкции, избегая одношаговой реконструкции. Использование ISM вместо SDS приводит к постоянно высокой производительности с высокореалистичными и детализированными результатами.

В целом, рамка LucidDreamer направлена на следующие вклады в генеративный искусственный интеллект 3D:

  1. Представляет глубокий анализ SDS, основного концепта в рамках генерации 3D по тексту, и определяет его основные ограничения низкокачественных фиктивных истинностей, а также объясняет проблему излишнего сглаживания, с которыми сталкиваются эти рамки генеративной генерации 3D.
  2. Для преодоления ограничений, вызванных подходом SDS, рамка LucidDreamer предлагает метод Interval Score Matching, новый подход, который использует интервальное сопоставление и обратимые траектории диффузии для превосходства SDS путем создания высокореалистичных и детализированных результатов.
  3. Достижение передовой производительности путем интеграции метода ISM с 3D гауссовым сплетением, превосходящее существующие методы генерации 3D-контента с низкими затратами на обучение.

Ограничения SDS

Как уже упоминалось ранее, SDS является одним из самых популярных подходов к моделям генерации текста в 3D и ищет способы для условной постпреобразования в скрытом пространстве DDPM. Метод SDS также использует предварительно обученный DDPM для моделирования условной апостериорной функции, и его целью является извлечение 3D-представлений для условной апостериорной функции, достигаемой путем минимизации следующего Кульбака-Лейблера. Кроме того, метод SDS также повторно использует функцию взвешенного согласования оценки шума для обучения DDP. Основная цель метода SDS можно также рассматривать как согласование вида 3D-модели с псевдоистиной, которая оценивается в один шаг DDPM. Однако разработчики отмечают, что процесс дистилляции часто игнорирует ключевые аспекты DDPM, и следующая фигура показывает, как предобученная DDPM склонна предсказывать псевдоистины с несогласующимися особенностями и производит низкокачественный результат во время процесса дистилляции.

Однако при обновлении направлений в нежелательных условиях обновляются 3D-представления, что в итоге приводит к слишком сглаженным результатам. Кроме того, стоит отметить, что компонент DDPM чувствителен к исходным данным, и даже небольшие изменения ввода значительно изменяют особенности псевдоистины. Кроме того, случайность как в положении камеры, так и в шумовой компоненте вводимых данных может приводить к флуктуациям, которые неизбежны во время дистилляции. Оптимизация ввода для несогласующихся псевдоистин приводит к средним результатам. Кроме того, метод SDS получает псевдоистины с предсказаниями в один шаг для всех временных интервалов и не принимает во внимание ограничения компонента DDPM в одиночном шаге, который не способен производить качественные результаты, что указывает на то, что дистилляция 3D-активов или изображений с использованием компонента SDS может не являться наиболее идеальным подходом.

LucidDreamer: методология и работа

Фреймворк LucidDreamer действительно представляет собой подход ISM, но он также разработан на основе опыта других фреймворков, включая генеративные модели текста в 3D, диффузионные модели и фреймворки для дифференцируемого 3D-представления. С этим в виду, давайте подробнее рассмотрим архитектуру и методологию фреймворка LucidDreamer.

Интервальное соответствие оценок или ISM

Проблемы излишнего сглаживания и низкокачественного вывода, с которыми сталкиваются большинство фреймворков генерации текста в 3D, можно объяснить использованием метода SDS, который стремится сопоставить псевдоистину с 3D-представлениями, которые являются несогласующимися и часто имеют низкое качество. Чтобы противодействовать проблемам, возникающим при использовании SDS, фреймворк LucidDreamer представляет ISM или интервальное соответствие оценок, новый подход, который имеет два этапа работы. На первом этапе компонент ISM получает более согласующиеся псевдоистины во время дистилляции, независимо от случайности положения камеры и шума. На втором этапе фреймворк генерирует псевдоистины с лучшим качеством.

Еще одним основным ограничением SDS является создание псевдоистин с предсказаниями в один шаг для всех временных интервалов, что затрудняет гарантированное получение псевдоистин высокого качества, и это является основой для улучшения визуального качества псевдоистин. В том же смысле цель метода SDS можно считать согласованием вида 3D-модели с псевдоистиной, оцененной DDPM в один шаг, хотя процесс дистилляции не учитывает важный аспект компонента DDPM, а именно производство псевдоистин низкого качества с несогласующимися особенностями во время процесса дистилляции.

В целом, компонент ISM обещает предоставить несколько преимуществ по сравнению с предыдущими методами, использованными в моделях генерации текста в 3D. Во-первых, благодаря способности ISM постоянно предоставлять псевдоистины высокого качества, он способен производить выводы с высокой степенью реалистичности с более тонкими структурами и более насыщенными деталями, что устраняет необходимость в масштабировании с большим числом направляющих масштабов и улучшает гибкость создания 3D-контента. Во-вторых, переход от метода SDS к методу ISM имеет минимальные вычислительные издержки, особенно учитывая тот факт, что метод ISM не компрометирует общую эффективность, даже требуя дополнительных вычислительных затрат для инверсий DDIM.

Вышеуказанная фигура демонстрирует работу подхода ISM и предоставляет обзор архитектуры фреймворка LucidDreamer. В рамках этого фреймворка сначала инициализируется гауссово слияние, то есть 3D представления, используя предобученный генератор текста в 3D на основе указания. Затем оно включается в предобученный 2D DDPM компонент для искажения случайных видов дошумных безусловных латентных траекторий с использованием инверсий DDIM, а затем обновляется с помощью оценки интервала. Благодаря своей архитектуре основной упор при оптимизации компонента ISM делается на обновление 3D представлений в направлении псевдо истинным данным, которые являются высококачественными и сохраняют консистентность при вычислении. Именно этот принцип позволяет ISM выравниваться с основными целями подхода SDS при улучшении существующего метода.

Инверсия DDIM

Чтобы получить более консистентные псевдо истинные данные в соответствии с 3D представлениями, фреймворк LucidDreamer применяет подход инверсии DDIM для предсказания шумных латентных 3D представлений и предсказания обратимой шумной латентной траектории в итеративном режиме. Благодаря обратимости инверсии DDIM фреймворк LucidDreamer значительно повышает степень консистентности псевдо истинных данных на всех временных интервалах.

Расширенный конвейер генерации

Фреймворк LucidDreamer также вводит дополнительный конвейер в дополнение к ISM, чтобы исследовать факторы, влияющие на визуальное качество генерации текста в 3D, и вводит гауссово слияние в 3D или 3DGS в качестве модели 3D генерации и генерации 3D облака точек для инициализации.

3D гауссово слияние

Существующие исследования показали, что увеличение размера пакета и разрешения рендеринга при обучении значительно улучшает визуальное качество. Однако большинство обучаемых 3D представлений, принятых для генерации текста в 3D, требуют много времени и памяти. С другой стороны, подход 3D гауссовского слияния обеспечивает эффективные результаты как в оптимизации, так и рендеринге, позволяя расширенному конвейеру генерации фреймворка LucidDreamer достигать большого размера пакета и высокого разрешения рендеринга, даже при ограниченных вычислительных ресурсах.

Инициализация

Большинство современных фреймворков для генерации текста в 3D инициализируют свои 3D представления ограниченными геометрическими фигурами, такими как круг, прямоугольник или цилиндр, что часто приводит к нежелательным результатам для неаксиально симметричных объектов. С другой стороны, фреймворк LucidDreamer, вводящий гауссовское слияние в 3D в качестве 3D представлений, может естественно приспособиться к нескольким генеративным фреймворкам, преобразуя текст в грубую инициализацию с помощью ввода от пользователя. Стратегия инициализации значительно ускоряет сходимость процесса.

LucidDreamer: Эксперименты и результаты

Генерация текста в 3D

Вышеприведенная фигура демонстрирует результаты, созданные моделью LucidDreamer с использованием оригинального стабильного подхода к диффузии, в то время как следующая фигура рассказывает о сгенерированных результатах на разных точках калибровки.

Как видно, фреймворк LucidDreamer способен генерировать высоко консистентный контент в 3D с использованием текстового ввода и семантических подсказок. Благодаря использованию ISM, фреймворк LucidDreamer создает сложные и более реалистичные изображения, избегая расплывчатости и преувеличения насыщенности, превосходя в генерации обычных объектов и поддержке творческих созданий.

Обобщаемость ISM

Для оценки обобщаемости ISM проводится сравнение между методами ISM и SDS как в явных, так и в неявных представлениях, и результаты демонстрируются на следующем изображении.

Качественное сравнение

Для анализа качественной эффективности рамочного LucidDreamer сравнивается с текущими базовыми моделями SoTA, и для обеспечения справедливого сравнения используется стабильная рамка Diffusion 2.1 для дистилляции, и результаты демонстрируются на следующем изображении. Как видно, рамка предоставляет результаты высокой точности и геометрическую точность при более низком потреблении ресурсов и времени.

Более того, чтобы предоставить более полную оценку, разработчики также проводят пользовательское исследование. Оценка выбирает 28 промптов и использует различные подходы к генерации объектов из текста в 3D для каждого промпта. Затем результаты оцениваются пользователями на основе степени соответствия входному промпту и его точности.

LucidDreamer: Приложения

Благодаря своим выдающимся результатам в широком спектре задач генерации 3D из текста, рамка LucidDreamer имеет несколько потенциальных применений, включая генерацию аватаров без обучения, персонализированную генерацию 3D из текста и редактирование 2D и 3D без обучения.

Изображение в верхнем левом углу демонстрирует потенциал LucidDreamer для задач редактирования 2D и 3D без обучения, а изображения в нижнем левом углу демонстрируют возможность рамки генерировать персонализированные 3D выходы с использованием LoRA, в то время как изображение справа демонстрирует возможность рамки генерировать 3D аватары.

Заключительные мысли

В этой статье мы рассмотрели LucidDreamer, новый подход, использующий метод Interval Score Matching или ISM для преодоления проблемы слишком гладких изображений, и обсудили архитектуру модели и ее эффективность по сравнению с современными генеративными рамками текста в 3D. Мы также говорили о том, как общий подход SDS или Score Distillation Sampling, который часто используется в большинстве современных моделей генерации текста в 3D, часто приводит к слишком гладким изображениям, и как рамка LucidDreamer противодействует этой проблеме, предлагая новый подход, подход Interval Score Matching, для генерации высококачественных и более реалистичных 3D изображений. Результаты и оценка указывают на эффективность рамки LucidDreamer в широком спектре задач генерации 3D и на то, как рамка уже превосходит текущие современные модели генерации 3D. Выдающаяся производительность рамки открывает путь для широкого спектра практических применений, как уже обсуждалось.