Исследователи компании Apple предлагают сеть с конца в конец, создающую подробные 3D-реконструкции на основе заданных изображений

Apple researchers propose an end-to-end network that creates detailed 3D reconstructions based on given images.

“`html

Вы когда-нибудь играли в GTA-5? 3D-графика в этой игре поражает воображение. В отличие от 2D-графики на плоской поверхности, 3D-графика имитирует глубину и перспективу, что позволяет создавать более реалистичные и захватывающие визуальные эффекты. 3D-графика широко используется в различных областях, включая видеоигры, производство фильмов, архитектурную визуализацию, медицинское изображение, виртуальную реальность и многое другое.

Традиционный метод создания 3D-модели состоит в оценке карт глубины для входных изображений, которые затем объединяются для создания 3D-модели. Группа исследователей из Apple и Калифорнийского университета в Санта-Барбаре создала прямое вывод 3D-геометрии на сценовом уровне с использованием глубоких нейронных сетей, не вовлекая традиционный метод оптимизации во время тестирования.

Традиционный метод приводил к отсутствию геометрии или артефактов в областях, где карты глубины не соответствуют из-за прозрачных или слаботекстурированных поверхностей. Подход исследователей заключается в отображении изображений на воксельную сетку и прямом предсказании усеченной знаковой функции расстояния (TSDF) сцены с использованием трехмерной сверточной нейронной сети.

Сверточная нейронная сеть (CNN) – это специализированная искусственная нейронная сеть, предназначенная для обработки и анализа визуальных данных, в частности изображений и видео. Преимущество использования этой техники заключается в том, что CNN может изучать и создавать гладкие, согласованные поверхности, которые могут заполнять пробелы в слаботекстурированных или прозрачных областях.

Исследователи использовали трехлинейную интерполяцию для выборки истинной TSDF, чтобы согласовать с сеткой вокселей модели во время обучения. Эта трехлинейная интерполяция добавляла случайный шум к деталям в процессе обучения. Чтобы преодолеть это, они учитывали только контролируемые предсказания в точках, где истинное TSDF хорошо известно, и этот метод улучшил результаты на 10%.

Воксель – это сокращение от объемных пикселей. Он представляет собой точку в трехмерном пространстве внутри сетки, аналогично тому, как пиксель представляет точку на двумерном изображении. Существующие воксели имеют размер 4 см или больше, что недостаточно для разрешения геометрических деталей, видимых на естественных изображениях, и увеличение разрешения вокселя является дорогостоящим. Они решили эту проблему, используя функцию сетки CNN, которая прямо проецирует характеристики изображения на запрашиваемую точку.

Им требовалось использовать плотную обратную проекцию для выборки любой характеристики из каждого входного изображения из каждого вокселя. Однако это приводило к размытию в объеме обратной проекции, и они решили эту проблему, используя начальную оценку глубины многократного представления сцены, которая далее использовалась для улучшения объема характеристик.

Исследователи утверждают, что их метод является ключевым для обучения сети до мелких деталей и позволяет свободно выбирать выходное разрешение без необходимости дополнительного обучения или уровней трехмерной свертки.

“`