Познакомьтесь с TADA мощным методом искусственного интеллекта для преобразования вербальных описаний в выразительных 3D-аватаров

TADA - powerful AI method for transforming verbal descriptions into expressive 3D avatars.

Развитие больших языковых моделей и моделей диффузии открыло путь к слиянию моделей текст-изображение с дифференцируемыми трехмерными нейронными сценами, лучшими примерами которых являются DeepSDF, NeRF и DMTET. Они позволили создавать точные трехмерные модели только на основе текстовых описаний. Хотя эти достижения принесли большой прогресс в сообществе искусственного интеллекта, сгенерированные объекты или персонажи часто не способны создавать реалистичные трехмерные аватары отличного качества в отношении формы и текстуры. Эти персонажи также могут не соответствовать традиционным рабочим процессам компьютерной графики.

В недавних исследованиях команда исследователей представила TADA (Text to Animatable Digital Avatars) – простой, но очень мощный метод преобразования вербальных описаний в выразительные трехмерные аватары с потрясающей геометрией и реалистичной текстурировкой. Эти аватары могут быть анимированы с использованием традиционных графических методов и визуально привлекательны. Существующие техники генерации персонажей из текста имеют проблемы с качеством геометрии и текстуры. Эти техники имеют проблемы с реалистичной анимацией из-за несоответствий в геометрии и текстуре, особенно в области лица. TADA решает эти проблемы, создавая мощное сотрудничество между двумерной моделью диффузии и параметрической моделью тела.

Создание сложного представления аватара является ключевым моментом изобретения TADA. Команда добавила слой смещения и текстурную карту к модели тела SMPL-X для ее улучшения. В результате SMPL-X была создана в высокоразрешенной форме, способной воспроизводить более мелкие текстуры и особенности. Для создания сложных, высококачественных трехмерных аватаров из текстового ввода был представлен иерархический метод визуализации вместе с выборкой дистилляции оценок (SDS). Эта техника обеспечивает детальные и всесторонние характеристики аватаров.

Для выравнивания геометрии и текстуры аватаров команда использовала латентное вложение созданных персонажей, отображенных нормальными и RGB-изображениями на протяжении процесса оптимизации SDS. Проблемы с несоответствием, особенно в области лица, были устранены благодаря реализации стратегии выравнивания. Кроме того, приложено усилие для сохранения согласованности выражений лица и семантики персонажей с помощью нескольких выражений в процессе оптимизации. Этот метод обеспечивает сохранение семантической целостности исходной модели SMPL-X, позволяя реалистичную и органичную анимацию.

TADA была применена с использованием метода под названием Score Distillation Sampling (SDS). Основные преимущества заключаются в следующем. –

  1. Иерархическая оптимизация с гибридным представлением сетки, позволяющая получать качественные детали, особенно на лице.
  1. Согласованное выравнивание геометрии и текстуры с использованием процесса оптимизации, который деформирует созданный персонаж с использованием заранее заданных поз и выражений лица модели SMPL-X.
  1. Семантическая согласованность и анимация, обеспечивающая сохранение семантической согласованности с моделью SMPL-X, облегчающая простую и точную анимацию.

Команда провела определенные оценки, включая как качественные, так и количественные, чтобы оценить, насколько лучше TADA по сравнению с альтернативами. Было замечено, что возможности TADA превосходят создание аватаров; она позволяет масштабное создание цифровых персонажей, подходящих как для анимации, так и для визуализации. Она также предоставляет редактирование с помощью текстового руководства, что дает пользователям огромную мощность и настраиваемость.