Исследователи из НТУ Сингапура предлагают IT3D новый метод AI для улучшения текста в 3D-генерации с возможностью подключения и использования

Исследователи НТУ Сингапура предлагают новый метод AI для улучшения текста в 3D-генерации.

В области преобразования текста в изображение был сделан значительный прогресс, что привело к всплеску энтузиазма в научном сообществе для расширения в область генерации 3D. Это волнение в основном связано с появлением подходов, которые используют предобученные модели диффузии текста в изображение 2D.

Важным развитием в этой области является творческая работа, выполненная Dreamfusion. Они представили новый метод, называемый алгоритмом Score Distillation Sampling (SDS), который имеет большое значение, поскольку может создавать множество разных 3D-объектов только по текстовым инструкциям. Несмотря на революционный подход, он имеет свой набор проблем. Существенным ограничением является контроль над геометрией и текстурой создаваемых моделей, что часто приводит к проблемам, таким как избыточная насыщенность и многолицевой вид моделей.

Кроме того, исследователи заметили, что попытка улучшить модели, делая только текстовые инструкции более ясными, не улучшает их эффективность.

Для преодоления этих проблем исследователи предложили усовершенствованную методологию для генерации 3D. Этот метод заключается в создании нескольких изображений с разных углов желаемой 3D-модели и использовании этих изображений для восстановления 3D-объекта. Процесс начинается с использования существующей модели генерации 3D по тексту, например DreamFusion, для создания базового представления объекта. Создав эти начальные модели, мы получаем базовое представление формы объекта и его расположения в пространстве. Затем этот метод улучшает изображения видов с помощью процесса генерации изображений-изображений (I2I).

IT3D предлагает поддержку различных представлений 3D-вывода, таких как сетки и NeRF, и его дополнительная сила заключается в его эффективной способности изменять внешний вид 3D-моделей с использованием текстовых вводов. На приведенном выше изображении представлена конвейерная система IT3D. Начиная с грубой 3D-модели, IT3D сначала создает небольшой набор данных, используя конвейер изображений-изображений, основываясь на рендеринге грубой 3D-модели. Затем в него вводится случайно инициализированный дискриминатор для извлечения знаний из созданного набора данных и обновления 3D-модели с использованием функции потерь дискриминации и функции потерь SDS.

Более того, анализ показывает, что этот метод может ускорить процесс обучения, что приводит к уменьшению необходимого числа шагов обучения и сопоставимому общему времени обучения. Этот метод может терпеть наборы данных с высокой вариативностью, как видно на приведенном выше изображении. Наконец, эмпирические результаты доказывают, что предложенный метод значительно улучшает базовые модели в части деталей текстуры, геометрии и соответствия между текстовыми подсказками и полученными 3D-объектами.

Эта техника действительно дала нам новый взгляд на генерацию 3D по тексту и стала первым исследовательским проектом, выполненным как совмещение GAN и диффузии перед улучшением задачи преобразования текста в 3D.