Расшифровка генеративного искусственного интеллекта глубокий погружение в модели диффузии и эволюцию визуального компьютерного моделирования

Генеративный искусственный интеллект взгляд вглубь моделей диффузии и эволюции визуального компьютерного моделирования

Для объединения компьютерно-генерируемых визуальных эффектов или определения физических характеристик сцены на основе изображений, группы компьютерной графики и трехмерного компьютерного зрения работают над созданием физически реалистичных моделей уже несколько десятилетий. На этой методологии построены несколько отраслей, включая визуальные эффекты, игровую индустрию, обработку изображений и видео, компьютерное проектирование, виртуальную и дополненную реальность, визуализацию данных, робототехнику, автономные транспортные средства и дистанционное зондирование, среди других, включая рендеринг, симуляцию, обработку геометрии и фотограмметрию. С появлением генеративного искусственного интеллекта (ИИ) возникла совершенно новая парадигма визуальных вычислений. С помощью лишь письменной подсказки или человеческой инструкции высокого уровня генеративные системы ИИ позволяют создавать и модифицировать фотореалистичные и стилизованные фотографии, фильмы или 3D объекты.

Эти технологии автоматизируют множество трудоемких задач в области визуальных вычислений, которые ранее были доступны только специалистам с глубокими знаниями в своей области. Основные модели для визуальных вычислений, такие как Stable Diffusion, Imagen, Midjourney или DALL-E 2 и DALL-E 3, раскрывают непревзойденные возможности генеративного ИИ. Эти модели “видели все” после обучения на сотнях миллионов и миллиардах пар текст-изображение и являются чрезвычайно объемными, имея всего несколько миллиардов обучаемых параметров. Эти модели были основой для упомянутых выше генеративных инструментов ИИ и были обучены на мощном облачном кластере графических процессоров (GPU).

Диффузные модели на основе сверточных нейронных сетей (CNN), часто используемых для генерации изображений, видео и 3D объектов, объединяют текст, вычисленный с использованием архитектур на базе трансформеров, таких как CLIP, в мульти-модальном стиле. Несмотря на то, что хорошо финансируемые промышленные игроки затратили значительные ресурсы на разработку и обучение основных моделей для генерации 2D изображений, в научном сообществе по-прежнему есть возможность внести значительный вклад в развитие этих инструментов для графики и компьютерного зрения. Например, требуется уточнить, как адаптировать существующие модели для изображений для использования в других, более высокоуровневых областях, таких как видео и создание 3D сцен.

Это обусловлено, в основном, необходимостью более конкретного вида обучающих данных. Например, в Интернете есть гораздо больше примеров низкокачественных и общих 2D фотографий, чем высококачественных и разнообразных 3D объектов или сцен. Кроме того, масштабирование систем создания 2D изображений для адаптации к большим размерам, необходимым для видео, создания 3D сцен или синтеза 4D сцен с согласованием множества видов, не всегда является очевидным. Еще одним примером текущего ограничения является вычисление: несмотря на то, что в сети доступно огромное количество (без подписи) видеоданных, текущие сетевые архитектуры часто слишком неэффективны для обучения за разумное время или на разумных вычислительных ресурсах. Это приводит к тому, что диффузионные модели достаточно медленны во время вывода. Это связано с большим размером и итеративным характером их сетей.

Рисунок 1: Эта передовая статья рассматривает теорию и применение диффузионных моделей для визуальных вычислений. Недавно эти модели превзошли стандарты при создании и модификации изображений, видео и объектов в 3D и 4D.

Несмотря на нерешенные проблемы, количество диффузионных моделей для визуальных вычислений за последний год значительно увеличилось (см. иллюстративные примеры на рис. 1). Целью данного обзора состояния искусственного интеллекта, разработанного исследователями из нескольких университетов, является предоставить структурированный обзор многочисленных последних публикаций, посвященных применению диффузионных моделей в визуальных вычислениях, обучить принципам диффузионных моделей и выявить нерешенные вопросы.