Исследователи из CMU и Макс-Планк Института представляют WHAM Революционный подход искусственного интеллекта для точной и эффективной трехмерной оценки движения человека на видео

Исследователи из CMU и Макс-Планк Института представляют WHAM Революционный подход искусственного интеллекта для точной и эффективной трехмерной оценки движения человека на видео

Реконструкция трехмерного движения человека – это сложный процесс, который включает в себя точное захватывание и моделирование движений человеческого субъекта в трехмерном пространстве. Эта задача становится еще более сложной при работе с видео, снятым подвижной камерой в реальных условиях, так как они часто содержат проблемы, такие как скольжение ног. Однако команда исследователей из Университета Карнеги Меллона и Института им. Макса Планка по искусственным системам разработала метод под названием WHAM (World-grounded Humans with Accurate Motion), который решает эти проблемы и достигает точной трехмерной реконструкции движения человека.

В исследовании рассматриваются два метода восстановления трехмерного положения и формы человека изображений: безмодельный и модельный. Оно подчеркивает использование методов глубокого обучения в модельных методах для оценки параметров статистической модели тела. Существующие методы трехмерной реконструкции человеческих движений на основе видео включают в себя временную информацию с помощью различных архитектур нейронных сетей. Некоторые способы используют дополнительные датчики, такие как инерционные датчики, но они могут быть навязчивыми. WHAM выделяется тем, что эффективно сочетает трехмерное движение человека и контекст видео, использует предварительные знания и точно восстанавливает трехмерную активность человека в глобальных координатах.

В исследовании рассматриваются проблемы точной оценки трехмерного положения и формы человека по монокулярному видео, с акцентом на глобальную согласованность координат, вычислительную эффективность и реалистичность контакта ног со землей. Используя данных захвата движения и видеоданные AMASS, WHAM объединяет сети кодировщиков и декодеров движения для превращения двухмерных ключевых точек в трехмерные позы, интегратор признаков для временных признаков и сеть для уточнения траектории для глобальной оценки движения с учетом контакта стопы для повышения точности на не плоских поверхностях.

WHAM использует однонаправленную рекуррентную нейронную сеть для онлайн-вычислений и точной трехмерной реконструкции движения, используя кодировщик движения для извлечения контекста и декодер движения для параметров SMPL, трансляции камеры и вероятности контакта стопы со землей. Техника нормализации области ограничения помогает в извлечении контекста движения. Кодировщик изображений, предварительно обученный на восстановлении человеческой сетки, захватывает и интегрирует характеристики изображения и характеристики движения через сеть интегратора признаков. Декодер траектории предсказывает глобальную ориентацию, а уточнение траектории минимизирует скольжение ног. WHAM, обученный на синтетических данных AMASS, показывает результаты лучше существующих методов в оценках.

https://arxiv.org/abs/2312.07531

WHAM превосходит текущие современные методы, обладая превосходной точностью в оценке трехмерного положения и формы человека как по отдельным кадрам, так и по видео. WHAM достигает точной глобальной оценки траектории, используя контекст движения и информацию о контакте стопы, минимизируя скольжение ног и улучшая международную координацию. Метод интегрирует характеристики изображений из двухмерных ключевых точек и пикселей, повышающих точность трехмерной реконструкции движения человека. Оценка на стандартных наборах данных демонстрирует превосходные характеристики WHAM по таким метрикам, как MPJPE, PA-MPJPE и PVE. Техника уточнения траектории дополнительно улучшает глобальную оценку траектории и снижает скольжение ног, что подтверждается улучшением метрик ошибки.

В заключение, основные выводы исследования можно кратко описать следующим образом:

  • WHAM представляет новаторский метод, который сочетает трехмерное движение человека и контекст видео.
  • Техника улучшает регрессию трехмерного положения и формы человека.
  • Процесс использует глобальную оценку траектории, включающую контекст движения и контакт стопы.
  • Метод решает проблемы скольжения ног и обеспечивает точное отслеживание в трехмерном пространстве на не плоских поверхностях.
  • Подход WHAM показывает хорошие результаты на различных наборах данных, включая 3DPW, RICH и EMDB.
  • Метод отлично выполняет эффективную оценку позы и формы человека в глобальных координатах.
  • Интеграция особенностей метода и уточнение траектории значительно повышают точность движения и глобальную оценку траектории.
  • Точность метода была подтверждена в ходе информативных абляционных исследований.