Это исследование ИИ предлагает SMPLer-X универсальную модель фундамента для трехмерного/четырехмерного захвата движения человека из одномерных входных данных

SMPLer-X универсальная модель базы для трехмерного/четырехмерного захвата движения человека на основе исследования ИИ

Отрасли анимации, игрового и модного мира могут успешно использовать передовые технологии в области оценки позы и формы человека (EHPS) на основе монокулярных фото или видео. Для точного изображения сложной анатомии человека, лица и рук часто применяются параметрические модели человека (например, SMPL-X). В последние годы появилось множество уникальных наборов данных, что дает возможность исследовать такие темы, как среда съемки, распределение позиций, видимость части тела и точка зрения камеры. Однако передовые подходы все еще ограничены небольшим количеством таких наборов данных, что вызывает затор производительности в различных сценариях и затрудняет обобщение на неизведанные территории. 

Для создания надежных универсальных моделей EHPS их цель в этой работе – тщательный анализ доступных наборов данных. Для этого они создали первую систематическую оценку EHPS с использованием 32 наборов данных и оценили их производительность по четырем ключевым показателям. Это демонстрирует значительные несоответствия между рейтингами, подчеркивая сложность всей EHPS-области, и требует масштабирования данных для устранения разрывов между сценариями. Этот глубокий анализ подчеркивает необходимость переоценки использования существующих наборов данных для EHPS, а также защищает замену более агрессивными альтернативами, обеспечивающими лучшие обобщающие способности. 

Их исследование подчеркивает ценность использования нескольких наборов данных для получения выгоды от их дополняющей природы. Они также тщательно изучают соответствующие аспекты, влияющие на переносимость этих наборов данных. Их исследование предоставляет полезные рекомендации для будущего сбора наборов данных: 1) Наборы данных не обязательно должны быть особенно объемными, чтобы быть полезными, если они содержат более 100 тыс. экземпляров, согласно их наблюдениям. 2) Если сбор коллекции на открытом воздухе не является практичным, различные внутренние сцены являются отличной альтернативой. 3) Синтетические наборы данных оказываются удивительно более эффективными, сохраняя заметные разрывы в области. 4) В отсутствие аннотаций SMPL-X полезны псевдо-метки SMPL-X.

Используя информацию из оценки, исследователями из технологического университета Наньян искусственного интеллекта, исследовательского центра SenseTime, Шанхайской исследовательской лаборатории ИИ, Токийского университета и Международной академии цифровой экономики (IDEA) был создан SMPLer-X. Эта универсальная модель основывается на различных наборах данных и обеспечивает удивительно сбалансированные результаты в различных ситуациях. Эта работа демонстрирует силу массово выбранных данных. Они разработали SMPLer-X с минималистической философией дизайна, чтобы отделиться от исследований алгоритмов: SMPLer-X имеет очень простую архитектуру, содержащую только самые важные компоненты для EHPS. В отличие от строгого анализа алгоритмического элемента, SMPLer-X предназначен для обеспечения масштабирования данных и параметров и служит основой для будущих исследований в этой области. 

Это обширная модель, превосходящая все результаты оценок для различных комбинаций данных и размеров моделей, а также ставящая под сомнение широко распространенную практику обучения на ограниченных наборах данных. Среднее основное отклонение по пяти основным рейтингам (AGORA, UBody, EgoBody, 3DPW и EHF) было сокращено от более чем 110 мм до менее 70 мм с помощью их основных моделей. Кроме того, они показывают эффективность оптимизации их универсальной основной модели для развития в экспертов в конкретных областях, обеспечивая выдающуюся производительность по всему спектру. 

Они специально используют методологию выбора данных, позволяющую их специализированным моделям достичь лучших результатов в рейтингах EgoBody, UBody и EHF, а также стать первой моделью, достигшей значения 107,2 мм в NMVE (улучшение на 11,0%) и установить новые рекорды в рейтинге AGORA. Они делают три отдельных вклада. 1) С использованием обширных наборов данных EHPS они создают первую систематическую оценку, которая дает важное направление для масштабирования данных обучения в надежной и переносимой области EHPS. 2) Они исследуют масштабирование данных и моделей для создания универсальной основной модели, которая обеспечивает сбалансированный результат во многих сценариях и успешно адаптируется к новым наборам данных. 3) Они улучшают свою основную модель, чтобы сделать ее мощным специалистом в разных областях по рейтингам, расширяя методику выбора данных.