Это исследование искусственного интеллекта представляет драйвабельные трехмерные гауссовы аватары (D3GA) Первую трехмерную управляемую модель для визуализации человеческих тел методом гауссовых шаров.

Драйвабельные трехмерные гауссовы аватары (D3GA) инновационная трехмерная модель для визуализации человеческих тел

Импрессионистское художественное движение было основано в XIX веке Анонимным обществом художников, скульпторов, граверов и т.д. и характеризуется “короткими, разорванными мазками, едва передающими формы”. Современные исследования теперь реалистично изображают человеческие субъекты в фотографиях, что является вызовом, избегаемым импрессионистами.

Поскольку монокулярные техники не обладают точностью, для создания управляемых (то есть способных анимировать и создавать новый контент) фотореалистичных людей требуется обширный многокамерный набор данных. Более того, текущие методы требуют сложной предварительной обработки, такой как точная 3D регистрация. Но для получения такой регистрации необходимо использовать итеративные процессы, которые не всегда легко включить в рабочий процесс. Другие подходы, не требующие точной регистрации, основаны на нейрональных радиационных полях (NeRF). Они либо испытывают сложности с отображением анимации одежды (с некоторыми исключениями), либо слишком медленны для реального времени.

Исследователи из Meta Reality Labs Research, Технического университета Дармштадта и Макс-Планка Института интеллектуальных систем используют трехмерное человеческое внешность и деформации в каноническом пространстве, используя 3D Гауссовы функции вместо радиационных полей. Гауссовы сферы служат современной заменой для тех быстрых мазков, чтобы анатомия и эстетика аватаров соответствовали живым, перемещаемым персонажам. Гауссовы сферы не требуют каких-либо хаков, связанных с выборкой лучей камеры. Точки в управляемом NeRF часто преобразуются из канонического пространства в пространство наблюдения с помощью линейного смешивания кожи (LBS). D3GA, с другой стороны, моделирует людей, используя 3D Гауссовы объемы как объемные примитивы и, следовательно, требует отображения от объема к каноническому пространству.

Вместо LBS исследователи используют каркасы, еще одну хорошо установленную модель деформации, хорошо подходящую для преобразования объемов. Градиент деформации, создаваемый деформацией каркасов в каноническом пространстве, непосредственно применяется к трехмерному Гауссовому представлению. Этот подход основан на композиционной структуре, которая позволяет представлять корпус, лицо и одежду отдельно с использованием каркасов. Остается загадкой, что приводит к тем деформациям каркаса, которые происходят. Современный уровень техники в управляемых аватарах требует плотных входных сигналов, таких как RGB-D изображения или даже многокамерные настройки, которые могут быть неприемлемыми для низкопропускных соединений в приложениях удаленного присутствия. Команда использовала более сжатый вход, основанный на позе человека, который включает кватернионные представления суставных углов скелета и 3D ключевые точки лица. Они используют девять высококачественных многокамерных последовательностей для обучения моделей, специфичных для каждого человека, которыми можно управлять с помощью новых поз любого субъекта. Они охватывают множество форм тела, движений и одежды (не ограничиваются плотно прилегающей).

Метод обеспечивает высококачественный результат, превосходящий современный уровень техники с одинаковыми входами и конкурирующий успешно с методами, использующими более подробную информацию, такую как FFD сетки или изображения, в ходе тестирования. Более того, предлагаемая техника не требует точной геометрии, чтобы достичь обнадеживающих результатов в геометрии и моделировании внешности для динамических последовательностей, что сокращает время обработки данных.