Новое исследование по искусственному интеллекту от Microsoft предлагает HMD-NeMo новый подход, который обеспечивает практическую и точную генерацию полного движения тела даже в случаях, когда руки могут быть видны лишь частично.

Новый подход HMD-NeMo от Microsoft точная генерация полного движения тела с учетом частично видимых рук

В области погружающихся опытов в смешанных сценариях реальности генерация точного и правдоподобного движения арматурного аватара на всём теле остаётся сложной задачей. Существующие решения, основанные на гарнитурах виртуальной реальности (HMD), обычно используют ограниченные входные сигналы, такие как положение головы и рук с 6 степенями свободы (6-DoF). Недавние достижения в области генерации движения на всём теле из сигналов головы и рук демонстрируют впечатляющую производительность, но все они имеют общее ограничение – предположение о полной видимости рук. Это предположение, справедливое в случаях, когда используются контроллеры движения, оказывается недостаточным во многих сценариях смешанной реальности, где отслеживание рук осуществляется с помощью эгоцентрических датчиков, что приводит к частичной видимости рук из-за ограниченного поля зрения гарнитуры виртуальной реальности.

Исследователи из Microsoft Mixed Reality & AI Lab, Кембридж, Великобритания, представили новаторский подход – HMD-NeMo (HMD Neural Motion Model). Эта объединенная нейронная сеть генерирует правдоподобное и точное движение на всём теле даже при частичной видимости рук. HMD-NeMo работает в режиме реального времени и онлайн, что делает его подходящим для динамичных сценариев смешанной реальности.

В основе HMD-NeMo лежит пространственно-временной энкодер с новыми адаптивными масками для управления временем (TAMT). Эти маски играют важную роль в обеспечении правдоподобного движения в отсутствие наблюдений за руками. Подход включает рекуррентные нейронные сети для эффективного захвата временной информации и трансформер для моделирования сложных связей между различными компонентами входного сигнала.

В статье описываются два сценария, рассматриваемых для оценки: контроллеры движения (MC), где руки отслеживаются с помощью контроллеров движения, и отслеживание рук (HT), где руки отслеживаются с помощью эгоцентрических датчиков для отслеживания рук. HMD-NeMo оказывается первым подходом, способным обрабатывать оба сценария в рамках объединенной системы. В сценарии HT, где руки могут быть частично или полностью вне поля зрения, адаптивные маски для управления временем демонстрируют свою эффективность в поддержании временной согласованности.

Предлагаемый метод обучается с использованием функции потерь, которая учитывает точность данных, плавность и вспомогательные задачи по восстановлению человеческой позы в SE(3). В экспериментах проводится обширная оценка набора данных AMASS, большой коллекции последовательностей движения человека, преобразованных в 3D-модели человека. Для оценки производительности HMD-NeMo используются метрики, такие как средняя ошибка позиции по суставам (MPJPE) и средняя ошибка скорости по суставам (MPJVE).

Сравнение с состоящими на первом месте подходами в сценарии контроллера движения показывает, что HMD-NeMo достигает более высокой точности и более плавной генерации движения. Более того, обобщаемость модели демонстрируется путем оценки на нескольких наборах данных, превосходящих существующие методы.

Студии отдаются в исследование влияния различных компонентов, включая эффективность модуля TAMT при обработке отсутствующих наблюдений за руками. Исследование показывает, что выбор проектирования в HMD-NeMo, такой как пространственно-временной энкодер, значительно влияет на его успех.

В заключение, HMD-NeMo представляет собой значительный прогресс в решении проблемы генерации движения арматурного аватара на всём теле в сценариях смешанной реальности. Его универсальность в обработке сценариев контроллера движения и отслеживания рук, а также его впечатляющие показатели производительности, позиционируют его как передовое решение в этой области.