Встречайте GPS-Gaussian новый подход искусственного интеллекта для синтеза новых видов персонажа в реальном времени

Знакомьтесь с GPS-Gaussian новым подходом искусственного интеллекта для синтеза новых персонажей в реальном времени

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

Одной из основных функций многоуровневых систем камер является синтез новых видов (NVS), который пытается генерировать фотореалистичные изображения с новых ракурсов, используя исходные фотографии. Подобласти NVS, связанные с людьми, имеют потенциал значительно способствовать эффективности реального времени и согласованным 3D-образам в областях, таких как голографическая коммуникация, сценические выступления и захват 3D/4D-сцен для спортивного трансляции. Ранее для создания новых видов использовались процессы взвешенного смешивания, но обычно для этого требовались плотные и точные исходные виды. Возникла проблема создания изображений высокого качества для NVS при использовании камер с небольшим количеством видов.

В нескольких задачах NVS недавно были показаны впечатляющие результаты с помощью неявных представлений, особенно нейронных радиационных полей (NeRF). Хотя уже были сделаны различные усовершенствования для ускорения процесса, методы NVS, использующие неявные представления, по-прежнему требуют много времени для обработки плотных точек в пространстве сцены. С другой стороны, явные представления, особенно облака точек, обладают возможностью рендеринга в реальном времени и высокой скоростью, и продолжают привлекать внимание. Сочетаясь с нейронными сетями, графика на основе точек предоставляет реалистичное и более эффективное явное представление, чем NeRF в задаче NVS с человеком.

Новое исследование, проведенное Харбинским институтом технологии и Цинхуа университетом, направлено на создание общей 3D-гауссовой модели, задействующей сети обратного распространения для регрессии гауссовых параметров, вместо персональной оптимизации для каждого субъекта. Целью исследователей является изучение использования больших моделей сканирования человека с различными топологиями, стилями одежды и поза-зависимыми деформациями для создания гауссовых представлений, черпая вдохновение из успешных подходов к обучению на основе восстановления человека, таких как PIFu. Предложенный подход позволяет быстро изображать внешний вид людей с помощью общей гауссовой модели, используя полученные ранее знания о человеческом теле.

Исследователи представляют параметры гауссовой функции в виде двухмерных карт на плоскостях исходных видов (позиция, цвет, масштабирование, вращение, непрозрачность), вместо неструктурированных облаков точек. Благодаря этим параметрам гауссовой функции можно изображать характер с помощью параметров для каждого пикселя, где каждый передний пиксель соответствует определенной точке гауссиана. Это также позволяет использовать экономичные двухмерные сверточные сети вместо трехмерных операторов. Оценка карт глубины для обоих исходных видов с помощью стерео-пары в качестве методики обратного проецирования поднимает параметры гауссовой функции со двумерных карт до трехмерных точек гауссова. Люди представлены этими точками гауссиана из обоих исходных видов, и новое изображение может быть сгенерировано с использованием подхода сглаживания. Значительные самозаслонения в человеческих фигурах делают задачу оценки глубины сложной при использовании существующих подходов с каскадным объемом стоимости. Поэтому команда предлагает одновременно обучать регрессию параметров гаусса и итеративный модуль оценки глубины на больших данных. Минимизация потерь при рендеринге модуля гаусса исправляет любые артефакты, возникающие вследствие оценки глубины и улучшает точность определения позиции гауссиана в трехмерном пространстве. Обучение становится более стабильным благодаря такому сотрудничеству, что выгодно всем сторонам.

В результате команда смогла создать новые виды 2K с частотой кадров выше 25 кадров в секунду, используя только одну передовую графическую карту. Новый персонаж может быть мгновенно воспроизведен без оптимизации или настройки используя широкие возможности общего использования и быстрого рендеринга, предложенного метода.

Как указано в их статье, несмотря на то что предложенный GPS-Gaussian синтезирует изображения высокого качества, есть некоторые факторы, которые всё-таки могут повлиять на его эффективность. Как пример, один из важных этапов предварительной обработки – точное выделение переднего плана. Кроме того, когда область цели полностью невидима в одном виде, но видима в другом, например, при использовании 6-камерной установки, метод не может корректно обработать большую разницу. Исследователи считают, что эту проблему можно решить с помощью данных, связанных со временем.