Эта искусственный интеллект – статья представляет RTMO прорыв в реальном времени многопользовательской оценке позы с использованием двухмерной 1D тепловой карты.

RTMO - прорыв в реальном времени многопользовательская оценка позы с помощью искусственного интеллекта и тепловой карты

Область определения позы, которая включает в себя определение позиции и ориентации объекта в пространстве, является быстроразвивающейся областью, в которой исследователи непрерывно разрабатывают новые методы для повышения точности и производительности. Исследователи из трех высокоуважаемых учреждений – Шэньчжэньская Международная Высшая Школа Тинхуа, Шанхайская лаборатория искусственного интеллекта и Технологический университет Наньян – недавно внесли свой вклад в эту область, разработав новую рамку RTMO. Алгоритм имеет потенциал улучшить точность и эффективность определения позы и может оказать значительное влияние на различные приложения, включая робототехнику, дополненную реальность и виртуальную реальность.

RTMO – это одноэтапная рамка определения позы, созданная для преодоления уступа между точностью и производительностью в ранее существующих методах. RTMO интегрирует модели классификации координат и плотного предсказания, превосходя другие одноэтапные оценщики позы путем достижения сравнимой точности с подходами сверху вниз при сохранении высокой скорости.

Определение позы в реальном времени для нескольких людей является вызовом в компьютерном зрении, и существующим методам требуется помощь для балансировки скорости и точности. Текущие подходы, либо сверху вниз, либо одноэтапные, имеют ограничения по времени вывода или точности. RTMO это одноэтапная рамка определения позы, которая комбинирует классификацию координат с архитектурой YOLO. Преодолевая вызовы с помощью динамического классификатора координат и настраиваемой функции потерь, RTMO превосходит существующие одноэтапные оценщики позы, достигая более высокой средней точности на COCO при сохранении производительности в реальном времени.

Исследование представляет рамку определения позы для нескольких людей в реальном времени, RTMO, используя архитектуру, подобную YOLO, с CSPDarknet в качестве основы и гибридным кодировщиком. В двойных блоках свертки генерируются оценки и признаки позы на каждом уровне пространства. Метод решает несовместимости между моделями классификации координат и плотного предсказания, используя динамический классификатор координат и настраиваемую функцию потерь для обучения тепловых карт. Для создания бин-специфических представлений используется динамическое кодирование бинов, а для задач классификации применяется сглаживание Гаусса с потерей перекрестной энтропии.

RTMO, одноэтапная рамка определения позы, отличается высокой точностью и производительностью в определении позы для нескольких людей. Превосходя передовые одноэтапные оценщики позы, она достигает на 1,1% более высокой средней точности на COCO при работе примерно в девять раз быстрее с той же основой. Самая большая модель, RTMO-l, достигает 74,8% AP на COCO val2017 и работает со скоростью 141 кадр в секунду на одном графическом процессоре V100. В различных сценариях серия RTMO показывает более высокую производительность и скорость по сравнению с сравнимыми легкими одноэтапными методами, демонстрируя эффективность и точность. С дополнительными обучающими данными RTMO-l достигает передовых результатов средней точности 81,7. Рамка генерирует пространственно точные тепловые карты, обеспечивая надежные и контекстно-осознанные предсказания для каждой ключевой точки.

https://arxiv.org/abs/2312.07526v1

В заключение, исследование можно суммировать в нескольких упомянутых пунктах:

  • RTMO – это рамка определения позы с высокой точностью и производительностью в реальном времени.
  • Она без проблем интегрирует классификацию координат в архитектуру YOLO.
  • RTMO использует инновационную технику классификации координат с использованием бинов координат для точной локализации ключевых точек.
  • Он превосходит передовых одноэтапных оценщиков позы и достигает более высокой средней точности на COCO, сохраняя при этом значительно большую скорость.
  • RTMO отлично справляется с сложными сценариями для нескольких людей, создавая пространственно точные тепловые карты для надежных и контекстно-осознанных предсказаний.
  • RTMO находит баланс между производительностью и скоростью среди существующих верхних и одноэтапных методов определения позы для нескольких людей.