Эта статья о ИИ раскрывает HiFi4G Прорыв в фотореалистичном моделировании человека и эффективной рендеринге

HiFi4G прорыв в фотореалистичном моделировании и эффективном рендеринге человека – узнайте все о нем в этой статье о ИИ

Объемная запись и реалистичное представление 4D (пространственно-временной) человеческой активности разрушают барьеры между зрителями и исполнителями. Оно предлагает разнообразные погружающиеся VR/AR-преживания, такие как телеприсутствие и теле-образование. Некоторые ранние системы используют неригидную регистрацию явно для воссоздания текстурированных моделей из записанной записи. Однако они все еще подвержены окусаниям и недостаткам текстуры, что приводит к пробелам и шуму в результате восстановления. Недавние нейронные прорывы, воплощенные в NeRF, оптимизируют многослойный перцептрон, основанный на координатах (MLP), а не прибегая к явному восстановлению, чтобы достичь фотореалистической объемной рендеринга.

Некоторые динамические вариации NeRF нацелены на сохранение канонического пространства признаков для воспроизведения признаков на каждом кадре с использованием дополнительного неявного поля деформации. Однако такая каноническая конструкция чувствительна к значительным топологическим изменениям или массивным перемещениям. С помощью планарной факторизации или хэш-кодирования последние методы устраняют поля деформации и компактно описывают 4D сетку признаков. Они существенно увеличивают скорость интерактивной программной рендеринга и обучения, но оставляют открытыми проблемы по запоминающей памяти и хранению. Недавно, трехмерное гауссово сглаживание (3DGS) возвращается к явной парадигме представления статических сцен. Оно позволяет ранее недостижимую реальном времени и высококачественную визуализацию радиационного поля на основе графика Гаусса в трех измерениях. Несколько текущих проектов модифицируют 3DGS для адаптации к динамическим ситуациям.

Некоторые концентрируются на неригидных движениях динамических гауссовых графиков и теряют качество рендеринга в процессе. Другие теряют явную и графически элегантную основу оригинального 3DGS и не могут обрабатывать длительные движения, так как используют дополнительные неявные поля деформации для компенсации информации о движении. В этом исследовании исследовательская группа из ShanghaiTech University, NeuDim, ByteDance и DGene представила HiFi4G, полностью явный и компактный гауссовский метод для восстановления четкой активности 4D человека из плотного видео (см. Рис. 1). Их основная концепция заключается в комбинировании неригидной трассировки с трехмерным гауссовским представлением для разделения данных о движении и внешнем виде в компактном и удобочитаемом виде. HiFi4G работает заметно лучше с точки зрения скорости оптимизации, качества рендеринга и ресурсоемкости текущих неявных методов рендеринга.

Рисунок 1 показывает нашу компактную гауссовскую визуализацию радиационного трехмерного поля в высоком разрешении. HiFi4G объединяет классическую процедуру гибкого фьюжна с продвинутой растеризацией с дифференцируемостью от видео с множественных точек зрения представления человеческой активности для эффективной генерации компактных 4D-объектов.

С помощью явного представления их результаты также без усилий могут быть интегрированы в пайплайн растеризации на основе GPU, позволяя пользователям наблюдать высококачественные человеческие активности в виртуальной реальности, используя VR-гарнитуры. Исследовательская группа впервые предлагает двухграфовую технику, включающую тонкозернистую гауссовскую и грубую деформационную сетку, чтобы естественно связать гауссовское представление с неригидной трассировкой. Для первого исследовательская группа использует NeuS2 для создания геометрического прокси на каждом кадре, прежде чем использовать внедренную деформацию (ED) в ключевом кадровом стиле. Такая явная техника трассировки делит последовательность на части, предоставляя богатое движение в каждом из сегментов. Аналогично обновлению ключевого объема, исследовательская группа ограничивает количество гауссов в текущем сегменте, используя 3DGS для обрезки неправильных гауссов из предыдущего сегмента и обновления новых.

Затем, исследовательская группа строит тонкозернистый гауссовский график для дальнейшей инициализации, интерполируя каждое гауссовское движение из грубой деформационной сети. Серьезные ненатуральные искажения возникают в результате наивной гибки гауссовского графика с помощью графа ED и его наложения на плоскость экрана; дрожание артефактов возникает из-за непрерывной оптимизации без ограничений. Чтобы правильно сбалансировать обновление гауссовских характеристик и неригидного движения, исследовательская группа предлагает 4D гауссовское оптимизационное решение. Исследовательская группа использует временной регуляризатор, чтобы обеспечить согласованность свойств внешности каждого гауссиана, таких как непрозрачность, коэффициенты масштабирования и сферические гармоники (SH). Исследовательская группа предлагает гладкое условие для характеристик движения (положение и вращение), чтобы генерировать местные движения, насколько это возможно порешает между соседними гауссианами.

В эти регуляризаторы добавлена адаптивная весовая механика для наказания помех на областях, которые проявляют небольшие, неупругие движения. Командой исследователей генерируются пространственно-временно компактные 4D-гауссианы после оптимизации. Команда исследователей предлагает сопутствующую технику сжатия, которая соответствует обычной коррекции остатков, квантованию и энтропийному кодированию для гауссовых параметров, чтобы сделать их HiFi4G полезными для потребителей. С значительной скоростью сжатия примерно в 25 раз и менее чем 2 МБ памяти, необходимой для каждого кадра, это позволяет погрузиться в наблюдение за человеческими выступлениями на различных устройствах, включая VR-гарнитуры.

Кратко, их основные вклады включают следующее:

• Команда исследователей представила компактное 4D-гауссовское представление, соединяющее гауссовское слепление со слежением за неупругими для визуализации человеческих выступлений.

• Команда исследователей предлагает двухграфовый подход, который позволяет эффективно восстанавливать пространственно-временно согласованные 4D-гауссианы с использованием различных регуляризационных моделей.

• Команда исследователей предлагает дополнительный подход сжатия, который обеспечивает низкопамятийный погружающий опыт человеческого выступления на различных платформах.