Исследователи из НТУ Сингапура предлагают IT3D новый метод AI для улучшения текста в 3D-генерации с возможностью подключения и использования
Исследователи НТУ Сингапура предлагают новый метод AI для улучшения текста в 3D-генерации.
В области преобразования текста в изображение был сделан значительный прогресс, что привело к всплеску энтузиазма в научном сообществе для расширения в область генерации 3D. Это волнение в основном связано с появлением подходов, которые используют предобученные модели диффузии текста в изображение 2D.
Важным развитием в этой области является творческая работа, выполненная Dreamfusion. Они представили новый метод, называемый алгоритмом Score Distillation Sampling (SDS), который имеет большое значение, поскольку может создавать множество разных 3D-объектов только по текстовым инструкциям. Несмотря на революционный подход, он имеет свой набор проблем. Существенным ограничением является контроль над геометрией и текстурой создаваемых моделей, что часто приводит к проблемам, таким как избыточная насыщенность и многолицевой вид моделей.
Кроме того, исследователи заметили, что попытка улучшить модели, делая только текстовые инструкции более ясными, не улучшает их эффективность.
- Исследователи Google представляют 𝗦𝘆𝗻𝘁𝗵𝗜𝗗 цифровой инструмент для нанесения водяных знаков и идентификации изображений, созданных с помощью искусственного интеллекта.
- Google наносит водяные знаки на изображения, созданные искусственным интеллектом, чтобы защититься от дипфейков
- Это исследование искусственного интеллекта решает проблему потери пластичности в системах глубокого обучения при использовании в условиях непрерывного обучения.
Для преодоления этих проблем исследователи предложили усовершенствованную методологию для генерации 3D. Этот метод заключается в создании нескольких изображений с разных углов желаемой 3D-модели и использовании этих изображений для восстановления 3D-объекта. Процесс начинается с использования существующей модели генерации 3D по тексту, например DreamFusion, для создания базового представления объекта. Создав эти начальные модели, мы получаем базовое представление формы объекта и его расположения в пространстве. Затем этот метод улучшает изображения видов с помощью процесса генерации изображений-изображений (I2I).
IT3D предлагает поддержку различных представлений 3D-вывода, таких как сетки и NeRF, и его дополнительная сила заключается в его эффективной способности изменять внешний вид 3D-моделей с использованием текстовых вводов. На приведенном выше изображении представлена конвейерная система IT3D. Начиная с грубой 3D-модели, IT3D сначала создает небольшой набор данных, используя конвейер изображений-изображений, основываясь на рендеринге грубой 3D-модели. Затем в него вводится случайно инициализированный дискриминатор для извлечения знаний из созданного набора данных и обновления 3D-модели с использованием функции потерь дискриминации и функции потерь SDS.
Более того, анализ показывает, что этот метод может ускорить процесс обучения, что приводит к уменьшению необходимого числа шагов обучения и сопоставимому общему времени обучения. Этот метод может терпеть наборы данных с высокой вариативностью, как видно на приведенном выше изображении. Наконец, эмпирические результаты доказывают, что предложенный метод значительно улучшает базовые модели в части деталей текстуры, геометрии и соответствия между текстовыми подсказками и полученными 3D-объектами.
Эта техника действительно дала нам новый взгляд на генерацию 3D по тексту и стала первым исследовательским проектом, выполненным как совмещение GAN и диффузии перед улучшением задачи преобразования текста в 3D.