Zero123++ Одиночное изображение для модели многостороннего распространения согласованной базы

Zero123++ Яркое представление модели согласованного базиса для многостороннего распространения

В последние несколько лет произошел быстрый прогресс в производительности, эффективности и возможностях генеративных моделей искусственного интеллекта, которые используют обширные наборы данных и практики генерации 2D диффузии. Сегодня генеративные модели искусственного интеллекта способны генерировать различные формы 2D и, в некоторой степени, 3D содержимого, включая текст, изображения, видео, GIF-анимацию и многое другое.

В этой статье мы расскажем о фреймворке Zero123++, модели искусственного интеллекта, которая использует изображения для генерации последовательных множественных изображений согласованных с 3D-пространством при одиночном входе. Чтобы максимально использовать преимущества предварительно обученных генеративных моделей, фреймворк Zero123++ реализует множество схем обучения и условия для минимизации усилий, требуемых для настройки моделей изображений диффузии. Мы более подробно рассмотрим архитектуру, принцип работы и результаты фреймворка Zero123++, а также проанализируем его возможности генерировать качественные последовательные множественные изображения высокого качества из одного изображения. Итак, приступим.

Zero123 и Zero123++: Введение

Фреймворк Zero123++ является моделью искусственного интеллекта, которая использует изображения для генерации последовательных множественных изображений согласованных с 3D-пространством при одиночном входе. Фреймворк Zero123++ является развитием фреймворка Zero123 или Zero-1-to-3, использующего технику синтеза изображений c новым ракурсом для преобразования одного изображения в 3D. Несмотря на обещающую производительность Zero123++ framework, генерируемые моделью изображения имеют заметные геометрические несоответствия, что является основной причиной разрыва между 3D-сценами и множественными изображениями.

Фреймворк Zero-1-to-3 является основой для нескольких других фреймворков, включая SyncDreamer, One-2-3-45, Consistent123 и другие, которые добавляют дополнительные слои к фреймворку Zero123 для достижения более согласованных результатов при генерации 3D-изображений. Другие фреймворки, такие как ProlificDreamer, DreamFusion, DreamGaussian и другие, следуют оптимизационному подходу для получения 3D-изображений путем выделения 3D-изображения из разных моделей с перекрывающимися результатами. Хотя эти методики эффективны и генерируют удовлетворительные 3D-изображения, результаты могут быть улучшены с помощью реализации базовой модели диффузии, способной генерировать множественные изображения последовательно. В соответствии с этим фреймворком Zero123++ использует подход Zero-1-to-3 и настраивает новую базовую модель множественных изображений из стабильной диффузии.

В фреймворке Zero-1-to-3 каждый новый вид генерируется независимо, и это приводит к несогласованности между созданными видами, поскольку модели диффузии имеют выборочный характер. Чтобы решить эту проблему, фреймворк Zero123++ применяет подход мозаичного расположения, при котором объект окружается шестью видами в одно изображение, что обеспечивает правильное моделирование совместного распределения множественных изображений объекта.

Еще одной основной проблемой для разработчиков, работающих над фреймворком Zero-1-to-3, является недостаточное использование возможностей, предлагаемых Stable Diffusion, что в конечном итоге приводит к неэффективности и дополнительным затратам. Существует две основные причины, по которым фреймворк Zero-1-to-3 не может максимально использовать возможности, предлагаемые Stable Diffusion:

  1. При обучении с условиями изображения фреймворк Zero-1-to-3 не эффективно включает локальные или глобальные механизмы условий, предлагаемые Stable Diffusion.
  2. Во время обучения фреймворк Zero-1-to-3 использует уменьшенное разрешение, подход, при котором разрешение выходного изображения уменьшается ниже тренировочного разрешения, что может ухудшить качество генерации изображений для моделей Stable Diffusion.

Для решения этих проблем фреймворк Zero123++ внедряет ряд техник условий, которые максимально используют ресурсы, предлагаемые Stable Diffusion, и поддерживают качество генерации изображений для моделей Stable Diffusion.

Улучшение условий и согласованности

В попытке улучшить условия изображения и согласованность множественных изображений, фреймворк Zero123++ реализует различные техники с целью повторного использования предыдущих методов, полученных из предварительно обученной модели Stable Diffusion.

Генерация множественных видов

Неотъемлемым качеством генерации последовательных многопредставлений является правильное моделирование совместного распределения нескольких изображений. В рамках Zero-1-to-3 недооценивается корреляция между многопредставлениями, поскольку для каждого изображения в рамках моделирования условного предельного распределения независимо и отдельно моделируется. Однако в рамках Zero123++ разработчики выбрали подход мозаичной компоновки, который разбивает 6 изображений на один рамку/изображение для единородной генерации многопредставлений, и процесс демонстрируется на следующем изображении.

Более того, было замечено, что ориентации объектов имеют тенденцию к разрешению совмещения при обучении модели на камерных положениях, и для предотвращения этого разрешения в рамках Zero-1-to-3 моделируется обучение на камерных положениях с углом места и относительным азимутом входных данных. Для реализации этого подхода необходимо знать угол места вида входных данных, который затем используется для определения относительной конфигурации между новыми входными данными. В попытке узнать этот угол места, фреймворки часто добавляют модуль оценки угла места, и этот подход часто сопровождается дополнительными ошибками в конвейере.

Расписание шума

Масштабированное линейное расписание, исходное расписание шума для Stable Diffusion, в основном сосредоточено на локальных деталях, но, как можно видеть на следующем изображении, у него очень мало шагов с низким SNR (отношение сигнал/шум).

Эти шаги с низким отношением сигнал/шум происходят на ранних этапах удаления шума, что является решающим этапом для определения глобальной низкочастотной структуры. Уменьшение числа шагов на этапе удаления шума, как в случае с интерференцией, так и обучением часто приводит к большей структурной вариации. Хотя такая настройка идеальна для генерации одиночных изображений, она ограничивает способность фреймворка обеспечить глобальную согласованность между различными представлениями. Чтобы преодолеть эту преграду, фреймворк Zero123++ настраивает модель LoRA на Stable Diffusion 2 v-предсказывающий фреймворк для выполнения игрушечной задачи, и результаты демонстрируются ниже.

С масштабированным линейным расписанием шума модель LoRA не переобучается, а только слегка осветляет изображение. В случае работы с линейным расписанием шума фреймворк LoRA успешно генерирует пустое изображение независимо от входного сигнала, что свидетельствует о влиянии расписания шума на способность фреймворка адаптироваться к новым требованиям глобально.

Масштабированное внимание к ссылке для локальных условий

Одиночный вид входных данных или условные изображения в рамках Zero-1-to-3 фреймворка объединяются с шумными входными данными в пространстве признаков для условного формирования изображения.

Это объединение приводит к неверной пиксельной пространственной соответственности между целевым изображением и входным изображением. Чтобы обеспечить правильное локальное формирование входных данных, фреймворк Zero123++ использует масштабированное Внимание к Ссылке, в котором запускается модель UNet удаления шума на дополнительном референсном изображении, а затем происходит добавление значений матриц и ключей самовнимания с референсного изображения в соответствующие слои внимания, когда входные данные моделируются с удаленным шумом, и это демонстрируется на следующей схеме.

Метод Масштабированного Внимания к Ссылке способен направлять модель диффузии для генерации изображений, имеющих текстуру, похожую на референсное изображение, и семантическое содержимое без какого-либо донастройки. При дополнительной настройке метод Масштабированного Внимания к Ссылке обеспечивает более высокие результаты с масштабированием скрытого пространства.

Глобальное формирование: FlexDiffuse

В исходном подходе Stable Diffusion текстовые вложения являются единственным источником глобальных вложений, и подход использует фреймворк CLIP в качестве текстового кодировщика для выполнения перекрестных экзаменаций между текстовыми вложениями и латентными значениями модели. В результате разработчики могут использовать соответствие между пространствами текста и полученными изображениями в рамках CLIP для глобального формирования изображений.

Фреймворк Zero123++ предлагает использовать обучаемую версию линейного руководствующего механизма для интеграции глобальной условности изображения в фреймворк с минимальной необходимостью файнтюнинга, и результаты демонстрируются на следующем изображении. Как видно, без присутствия глобальной условности изображения, качество контента, созданного фреймворком, удовлетворительно для видимых областей, соответствующих входному изображению. Однако качество изображения, созданного фреймворком для невидимых областей, подвергается значительному ухудшению, которое обусловлено в основном неспособностью модели делать выводы о глобальной семантике объекта.

Архитектура модели

Фреймворк Zero123++ обучается на базе стабильного диффузионного моделирования 2v с использованием различных подходов и техник, упомянутых в статье. Фреймворк Zero123++ предварительно обучается на наборе данных Objaverse, на котором случайным образом применяется посветка HDRI. Фреймворк также применяет подход фазового обучения, использованный в фреймворке Stable Diffusion Image Variations, с целью минимизации необходимого объема файнтюнинга и сохранения максимально возможного в стабильном диффузионном априори.

Рабочая или архитектура фреймворка Zero123++ может быть дополнительно разделена на последовательные шаги или фазы. Первая фаза предусматривает настройку KV-матриц слоев кросс-внимания и слоев самовнимания стабильного диффузионного моделирования с использованием оптимизатора AdamW, 1000 шагов прогрева и косинусного графика обучения с максимальным значением 7×10-5. Во второй фазе фреймворк использует высоконадежный постоянный уровень обучения с 2000 шагами прогрева и применяет метод Min-SNR для максимизации эффективности во время обучения.

Zero123++ : Результаты и сравнение производительности

Качественная производительность

Для оценки производительности фреймворка Zero123++ на основе качества создаваемого контента он сравнивается с фреймворками SyncDreamer и Zero-1-to-3-XL, двумя из лучших фреймворков для генерации контента. Фреймворки сравниваются на четырех входных изображениях с разным содержанием. Первое изображение – это электрический игрушечный кот, взятый непосредственно из набора данных Objaverse, и оно отличается большой неопределенностью на заднем конце объекта. Второе изображение представляет собой пожарный шланг, а третье – изображение собаки, сидящей на ракете, созданное моделью SDXL. Последнее изображение – это анимационный рисунок. Необходимое количество этажей высоты для фреймворков достигается с использованием метода оценки высоты фреймворка One-2-3-4-5, а удаление фона осуществляется с помощью фреймворка SAM. Как видно, фреймворк Zero123++ последовательно создает многообъектные изображения высокого качества и способен обобщать как 2D-иллюстрации, так и изображения, созданные искусственным интеллектом вне области использования.

Количественный анализ

Для количественного сравнения фреймворка Zero123++ с фреймворками Zero-1-to-3 и Zero-1to-3 XL, разработчики оценивают показатель Learned Perceptual Image Patch Similarity (LPIPS) этих моделей на данных, разделенных для валидации и представляющих подмножество набора данных Objaverse. Для оценки производительности модели при генерации многообъектных изображений разработчики создают тайлы исходных изображений и 6 сгенерированных изображений соответственно, а затем вычисляют показатель Learned Perceptual Image Patch Similarity (LPIPS). Результаты представлены ниже, и как видно, фреймворк Zero123++ достигает лучшей производительности на наборе данных для валидации.

Оценка текста на многообъектное представление

Для оценки возможностей фреймворка Zero123++ в создании контента с помощью текста, разработчики сначала используют фреймворк SDXL с текстовыми подсказками для создания изображения, а затем применяют фреймворк Zero123++ к сгенерированному изображению. Результаты представлены на следующем изображении, и как видно, в сравнении с фреймворком Zero-1-to-3, который не гарантирует последовательную многообъектное генерацию, фреймворк Zero123++ возвращает последовательные, реалистичные и высоко детализированные многообъектные изображения, реализуя подход или конвейер текст-изображение-многообъектное представление.

Zero123++ Depth ControlNet

Помимо базовой структуры Zero123++, разработчики также выпустили версию Depth ControlNet Zero123++, контролируемую по глубине, для оригинальной структуры, построенной с использованием архитектуры ControlNet. Линейные изображения нормализуются с учетом последующих RGB-изображений, и обучается структура ControlNet, которая контролирует геометрию структуры Zero123++ с использованием глубинного восприятия.

Conclusion

В этой статье мы говорили о Zero123++, модели искусственного интеллекта, основанной на диффузионной генерации изображений, цель которой – генерировать 3D-согласованные множественные изображения с использованием одного исходного изображения. Чтобы максимально использовать преимущества предварительно обученных генеративных моделей, структура Zero123++ реализует множество схем обучения и условий, чтобы минимизировать усилия, необходимые для доведения до уровня моделей диффузионного изображения, доступных для использования “из коробки”. Мы также обсудили различные подходы и улучшения, внедренные в структуру Zero123++, благодаря чему она достигает результатов, сравнимых, а в некоторых случаях и превышающих результаты, достигаемые современными лидерами в области интеллектуальных систем обработки изображений.

Однако, несмотря на ее эффективность и способность последовательно генерировать изображения высокого качества с множественными видами обзора, структура Zero123++ все еще имеет потенциал для улучшения, исследуемые области включают:

  • Модель двухэтапного уточнения, которая может решить недостаток Zero123++ в соответствии глобальным требованиям.
  • Дополнительное увеличение масштаба , чтобы дальше улучшить способность Zero123++ генерировать изображения еще более высокого качества.