Познакомьтесь с SceneTex новым методом искусственного интеллекта для создания высококачественных и стилистически согласованных текстур в помещениях

Знакомство с SceneTex – новым методом искусственного интеллекта для создания качественных и стильных текстур в интерьерах

Синтезирование трехмерного контента высокого качества является важной, но сложной задачей для многих приложений, таких как автономное вождение, роботизированное моделирование, игры, создание фильмов и будущие времяпрепровождения виртуальной и дополненной реальности. Тема генерации трехмерной геометрии привлекла большой интерес со стороны сообщества компьютерного зрения и графики благодаря доступности все большего количества наборов данных трехмерного контента. Несмотря на то, что трехмерное геометрическое моделирование изменилось много с того времени, но создание внешнего вида или текстур предметов до сих пор требует большого количества ручного труда. Процесс разработки и редактирования может занимать значительное время и требует большого опыта в трехмерном моделировании с использованием программы, такой как Blender.

Таким образом, высокий спрос на человеческие навыки и связанные с ними затраты препятствуют полной индустриализации автономного дизайна и улучшения текстур. По этому вопросу был достигнут большой прогресс в создании текста на основе 3D путем использования последних достижений в моделях двумерного диффузиона, особенно в синтезе текстур для предопределенных форм. Работы Text2Tex и Latent-Paint позволили создать предметы высокого качества и обеспечить синтез текстур высокой степени достоверности на основе вводных команд. Хотя эти подходы дают интересные результаты для отдельных предметов, масштабирование их для создания текстур для сцены все же вызывает несколько сложностей.

С одной стороны, расшивка текстуры, накопленные артефакты и проблемы замыкания петель являются общими проблемами авторегрессионных алгоритмов, которые проецируют двумерные изображения на поверхности трехмерных объектов. Сложно поддерживать однородность стиля на всем снимке, когда каждый объект имеет свою текстуру. С другой стороны, оптимизация текстуры выполняется в пространстве низкого разрешения с использованием методов на основе дистилляции оценки, что часто приводит к ошибочным деталям геометрии и размытым RGB текстурам. Из-за этого предыдущие текстуры на основе текста не могут создавать текстуры трехмерной сцены высокого качества.

Команда исследователей из Мюнхенского технического университета и Snap Research предлагает SceneTex – уникальную конструкцию, которая использует диффузионные априорные знания о глубине и изображении для создания качественных и стилево согласованных текстур для внутренних сцен. Команда исследователей принимает отличную стратегию, переформулируя создание текстуры как задачу оптимизации текстуры в пространстве RGB с использованием диффузионных априорных знаний в отличие от существующих техник, которые многократно искажают двумерные изображения на поверхности сетки.

Фундаментально говоря, исследовательская группа предлагает многоразрешенное текстурное поле, чтобы красиво показать внешний вид сетки. Текстурной элемент в этом поле могут быть удержаны в нескольких размерах, чтобы точно отобразить детали текстуры. В результате их дизайн теперь может гибко изучать информацию о внешности в сторону низких и высоких частот. Команда исследователей использует аттенционный декодер для уменьшения несоответствия стиля, вызванного самоокклюзией, чтобы обеспечить стилистическую согласованность созданной текстуры.

На практике каждое декодированное значение RGB создается с кросс-ссылкой на предварительно выбранные ссылки на поверхности в каждом объекте. Так как каждое видимое место получает глобальную ссылку на весь обзор, команда исследователей может дополнительно обеспечить глобальную согласованность стиля внутри каждой модели. Команда исследователей демонстрирует, что SceneTex может обеспечить точное и гибкое создание текстуры для внутренних сцен на основе предоставленного языкового сигнала. Команда исследователей показывает, что в SceneTex крайне ценятся стиль и геометрическая согласованность через всесторонние испытания. На основе пользовательских исследований на части набора данных 3DFRONT предложенная техника превосходит альтернативные алгоритмы создания текстуры на основе текста по метрикам 2D, таким как CLIP и оценки Inception.

Технический вклад исследовательской команды можно сформулировать следующим образом:

• С использованием диффузионных априорных знаний о глубине и изображении, исследовательская группа создает уникальную структуру, позволяющую получать качественные текстуры сцены высокого разрешения.

• Исследовательская группа использует многоразрешенность текстуры для точного воспроизведения богатых текстурных особенностей путем предложения неявного текстурного поля для записи вида предмета на нескольких масштабах.

• В сравнении со старыми техниками синтеза, исследовательская группа создает более эстетически привлекательные и стилево согласованные текстуры для сцен 3D-FRONT, используя аттенционный декодер текстуры для обеспечения глобальной согласованности стиля для каждого экземпляра.