Познакомьтесь с 3D-GPT Рамкой искусственного интеллекта для трехмерного моделирования, основанной на инструкциях и использующей большие языковые модели (LLM).

Знакомство с 3D-GPT Искусственный интеллект для трехмерного моделирования, основанный на инструкциях и использующий большие языковые модели (LLM).

Используя тщательно проработанные модели, создание 3D-контента в эпоху метавселенной переопределяет мультимедийные возможности в игровой индустрии, виртуальной реальности и фильмов. Однако дизайнерам часто требуется помощь в продолжительном процессе 3D-моделирования, начиная с основных форм (таких как кубы, сферы или цилиндры) и используя инструменты, такие как Blender для точного оформления, детализации и текстурирования. Рендеринг и постобработка завершают этот трудоемкий процесс и дают полированную конечную модель. Хотя изменяемые параметры и правило-основанные системы делают процедурное создание эффективным в автоматизации разработки контента, это требует тщательного понимания правил создания, алгоритмических фреймворков и отдельных параметров.

Дополнительный элемент сложности добавляется, когда эти процедуры согласованы с творческими аспирациями клиентов через эффективное коммуникативное взаимодействие. Это подчеркивает важность оптимизации традиционного подхода к 3D-моделированию для разработчиков в эпоху метавселенной. LLM демонстрируют замечательное планирование, навыки использования инструментов и способность понимать язык. Кроме того, LLM отличаются исключительным мастерством характеризации качеств объекта, таких как структура и текстура, что позволяет им улучшать детали на основе базовых описаний. Они также блестяще понимают сложные функции кода и производят краткое текстовое материалов разбор, обеспечивая эффективное взаимодействие с пользователем. Они исследовали новые возможности использования этих исключительных навыков в процедурном 3D-моделировании.

Их основная цель – использовать LLM на полную мощность для контроля над 3D-творческим программным обеспечением в соответствии с требованиями клиента. Чтобы достичь этой цели, исследователи из Австралийского Национального университета, Оксфордского университета и Бекингской академии искусственного интеллекта представляют 3D-GPT, фреймворк, разработанный для облегчения создания 3D-контента по инструкциям. Разделение процесса 3D-моделирования на более мелкие, управляемые сегменты и принятие решения о том, когда, где и как их завершать, 3D-GPT дает возможность LLM действовать как агенты, решающие проблемы. Концептуализирующий агент, агент 3D-моделирования и агент передачи заданий – это три основных агента, составляющих 3D-GPT. Путем настройки 3D-функций генерации первые два агента работают совместно для выполнения обязанностей 3D-концептуализации и 3D-моделирования.

Третий агент контролирует систему, принимая первый текстовый ввод, управляя последующими командами и обеспечивая эффективное взаимодействие между первыми двумя агентами. Тем самым они продвигают две важные цели. Они улучшают описание исходной сцены, направляя его на более глубокие и контекстно связанные формы, а затем модифицируют текстовый ввод на основе дополнительных указаний. Во-вторых, они используют процедурное создание, метод взаимодействия с 3D-программным обеспечением, который использует изменяемые параметры и правило-основанные системы, а не прямое создание каждого компонента 3D-материала. Их 3D-GPT способен определять соответствующие значения параметров по улучшенному тексту и понимать процедурные методы генерации. Используя написанные пользователями описания в качестве руководства, 3D-GPT предоставляет точное и настраиваемое 3D-создание.

В сложных сценариях с множеством разных элементов, ручное указание каждого управляемого параметра при процедурном создании уменьшает усилия. Кроме того, 3D-GPT улучшает участие пользователя, оптимизируя творческий процесс и ставя пользователя на первое место. Кроме того, 3D-GPT плавно интегрируется с Blender, предоставляя пользователям доступ к различным инструментам манипулирования, включая редактирование сетки, симуляцию физического движения, анимацию объектов, изменение материала и добавление примитивов. Они утверждают, что LLM способны обрабатывать более сложную визуальную информацию на основе своих тестов.

Ниже приведено краткое изложение их вкладов:

• Представление 3D-GPT, фреймворка для создания 3D-сцен, предлагающего бесплатное обучение. Их метод использует встроенные мультимодальные навыки рассуждения LLM для повышения продуктивности процедурного 3D-моделирования конечного пользователя.

• Исследование альтернативного подхода в генерации текста в 3D, при котором их 3D-GPT создает программы Python для работы с 3D-программным обеспечением, возможно, предоставляя дополнительные гибкости для реальных приложений.

• Эмпирические исследования показывают, что LLM обладают большим потенциалом в способности мыслить, планировать и использовать инструменты при создании 3D-материала.