Революционирование создания 3D-моделей с помощью MVDream

3D-модели с MVDream революционный подход

Оригинально опубликовано на louisbouchard.ai, прочтите его 2 дня назад на моем блоге!

Смотрите видео:

Я очень рад поделиться с вами этой новой моделью искусственного интеллекта! Мы видели много новых подходов к генерации текста, затем генерации изображений, которые становятся все лучше. Затем мы видели другие потрясающие первоначальные работы по генерации видео и даже 3D-моделей из текста. Просто представьте себе сложность такой задачи, когда у вас есть только предложение, и вам нужно сгенерировать что-то, что может выглядеть как объект в реальном мире со всеми его деталями. Ну вот, здесь есть новая модель, которая не является просто первым шагом; это огромный шаг вперед в генерации 3D-моделей из текста: MVDream!

Сравнение результатов (MVDream справа) сгенерированных с текстом: младенец йода в стиле Мормуки. Изображение из статьи.

Как видите, кажется, что MVDream способен понимать физику. По сравнению с предыдущими подходами, он это понимает. Он знает, что изображение должно быть реалистичным с двумя ушами и не с двумя для любых возможных видов. В результате он создает очень качественную 3D-модель только на основе этой простой строки текста! Как круто это? Но еще круче то, как это работает… давайте погрузимся в это прямо сейчас!

Если посмотреть на 3D-модель, самая большая проблема состоит в том, что они должны генерировать и реалистичные, и высококачественные изображения для каждого вида с позиции, с которой вы на них смотрите, И эти виды должны быть пространственно связанными друг с другом, не как 4-ухухий Йода, которого мы видели ранее или объекты с множеством лиц, так как в наборе изображений редко бывают люди сзади, поэтому модель хочет видеть лица в любом случае. Один из основных подходов к генерации 3D-моделей заключается в том, чтобы смоделировать угол обзора с помощью камеры, а затем сгенерировать то, что она должна видеть с этой точки зрения. Это называется 2D-поднятием, так как мы генерируем обычные изображения, чтобы объединить их в полную 3D-сцену. Затем мы генерируем все возможные виды объекта со всех сторон. Вот почему мы привыкли видеть такие странные артефакты, так как модель просто пытается генерировать один вид за раз и не слишком хорошо понимает объект в пространстве 3D. Ну вот, MVDream сделал огромный шаг в этом направлении. Они…