«Это исследование искусственного интеллекта от Adobe предлагает модель крупномасштабной реконструкции (LRM), которая предсказывает 3D-модель объекта по одному входному изображению в течение 5 секунд».

«Исследование искусственного интеллекта от Adobe модель масштабной реконструкции (LRM), предсказывающая 3D-модель по одному изображению в 5 секунд».

Многие исследователи представляли мир, в котором любое 2D изображение могло бы мгновенно преобразовываться в 3D-модель. Исследования в этой области преимущественно были мотивированы желанием найти общий и эффективный метод достижения этой долгосрочной цели, потенциальные применения которой охватывают промышленный дизайн, анимацию, игры и дополненную реальность/виртуальную реальность.

Ранние подходы к обучению, основанные на данных, обычно хорошо справляются с определёнными категориями, используя данные категории перед выводом общей формы из-за неясности 3D-геометрии с одного взгляда. Последние исследования были мотивированы последними достижениями в области генерации изображений, такими как DALL-E и Stable Diffusion, с целью использования потенциала потрясающей обобщаемости 2D-диффузионных моделей для обеспечения многообразного наблюдения. Однако многие из этих подходов требуют тщательной настройки параметров и регуляризации, а их результаты ограничены заранее обученными 2D генеративными моделями, использованными изначально.

Используя модель крупномасштабной реконструкции (LRM), исследователи из Adobe Research и Австралийского национального университета смогли преобразовать одиночное изображение в 3D. Предложенная модель использует массивную трансформаторную архитектуру кодировщика-декодера для обучения обобщенного представления 3D-объекта на основе данных с одного изображения. Когда изображение подаётся на их систему, она выводит трёхплоскостное представление NeRF. Более конкретно, LRM генерирует признаки изображения с использованием заранее обученного визуального трансформатора DINO в качестве кодировщика изображений, а затем обучает трансформаторный декодер изображения в трёхплоскостное представление для проекции 2D-признаков с кросс-вниманием на 3D-трёхплоскость и далее самостоятельно моделирует взаимосвязи между структурированными пространственно токенами трёхплоскости. Выходные токены от декодера переформатируются и повышаются до итоговых карт признаков трёхплоскости. После этого можно декодировать характеристику трёхплоскости каждой точки с помощью дополнительной общей многослойной перцепции (MLP), чтобы получить её цвет и плотность и выполнить объемное рендеринг, что позволяет нам генерировать изображения из произвольных точек зрения.

LRM является высоко масштабируемой и эффективной благодаря своей хорошо спроектированной архитектуре. Трёхплоскостные NeRF совместимы с ресурсами компьютера по сравнению с другими представлениями, такими как объемы и облака точек, что делает их простым и масштабируемым 3D-представлением. Кроме того, его близость к входном изображению является превосходной по сравнению с токенизацией модельных весов NeRF Shap-E. Кроме того, LRM обучается посредством простого минимизирования разницы между созданными изображениями и реальными изображениями новых точек зрения, без излишней 3D-сообразной регуляризации или тщательной настройки гиперпараметров, что делает модель очень эффективной в обучении и способной адаптироваться к разнообразным наборам данных с мульти-видом.

LRM является первой моделью крупномасштабной 3D-реконструкции с более чем 500 миллионами обучаемыми параметрами и набором данных для обучения, состоящим из приблизительно одного миллиона 3D-форм и видеоизображений из различных категорий; это значительное увеличение по сравнению с более поздними методами, которые используют относительно более мелкие сети и наборы данных. Экспериментальные результаты показывают, что LRM способна восстанавливать 3D-формы с высокой точностью из реальных и сгенерированных фотографий моделей. Кроме того, LRM является очень полезным средством для уменьшения размера.

Команда планирует сосредоточиться на следующих направлениях для последующего исследования:

  1. Увеличить размер модели и объема данных обучения, используя наиболее простую трансформаторную архитектуру с минимальной регуляризацией.
  2. Расширить его до мультимодальных генеративных моделей в 3D.

Некоторые работы, выполняемые 3D-дизайнерами, могут быть автоматизированы с помощью моделей изображений в 3D-реконструкции, таких как LRM. Важно отметить, что эти технологии могут потенциально способствовать росту и доступности в творческом секторе.