Исследователи Max Planck представляют PoseGPT фреймворк искусственного интеллекта, использующий модели большого языка (LLM) для понимания и вывода о трехмерных позах человека по изображениям или текстовым описаниям.

Max Planck представляет PoseGPT Фреймворк искусственного интеллекта для понимания трехмерных поз по изображениям и текстовым описаниям

Положение тела человека имеет ключевое значение для общего здоровья, благополучия и различных аспектов жизни. Оно охватывает выравнивание и позиционирование тела в сидячем, стоячем или лежачем положении. Правильная осанка поддерживает оптимальное выравнивание мышц, суставов и связок, снижая риск мышечных дисбалансов, суставной боли и перегрузочных повреждений. Это помогает равномерно распределить вес тела, предотвращая излишнее напряжение на определенные части тела.

Правильная осанка позволяет лучше раскрыть легкие и обеспечивает адекватное дыхание. Сутулость или плохая осанка могут сжать грудную полость, ограничивая объем легких и затрудняя эффективное дыхание. Кроме того, правильная осанка поддерживает здоровое кровообращение по всему организму. Исследования показывают, что поддержание хорошей осанки может положительно влиять на настроение и самоуверенность. Принятие прямой и открытой осанки связано с увеличением уверенности в себе, позитивностью и снижением уровня стресса.

Команда исследователей из Института макса Планка по интеллектуальным системам, Эффацкого политехнического университета, Meshcapade и Университета Цинхуа создала основанный на использовании большой языковой модели PoseGPT фреймворк, предназначенный для понимания и рассуждения о трехмерных позах с использованием изображений или текстовых описаний. Традиционные методы определения позы человека, такие как на основе изображения или текста, часто требуют более глубокого понимания ситуации и сложного рассуждения, что приводит к разрыву между визуальными данными и их реальными последствиями. PoseGPT устраняет эти ограничения, внедряя позы SMPL в качестве отдельного токена сигнала в мультимодальную LLM, что позволяет прямо генерировать трехмерные позы тела как из текстовых, так и из визуальных данных.

Их метод внедряет позы SMPL в качестве уникального токена, требуя от LLM выдавать их при запросе относительно поз, связанных с SMPL. Они извлекли языковую вставку из этого токена и использовали многослойный персептрон MLP для прямого прогнозирования параметров позы SMPL. Это позволяет модели использовать входные данные в виде текста или изображений и выводить трехмерные позы тела.

Они оценили PoseGPT на различных разнообразных задачах, таких как традиционная задача определения трехмерной позы человека по одному изображению и генерация позы по текстовым описаниям. Точность метрики при выполнении этих классических задач все еще должна соответствовать специализированным методам, но они видят в этом первое подтверждение концепции. Что более важно, когда LLM понимает позы SMPL, они могут использовать свои врожденные знания о мире для связи и рассуждения о позах человека без необходимости обширных дополнительных данных или обучения.

В отличие от традиционных подходов к регрессии позы, их методология не включает предоставление мультимодальной LLM обрезанного прямоугольника, окружающего отдельного человека. Вместо этого модель получает доступ ко всей сцене, что позволяет им формулировать запросы относительно отдельных лиц и их соответствующих поз в контексте.

После того, как LLM понимает понятие трехмерной позы тела, она приобретает двойную способность генерировать позы человека и понимать мир. Это позволяет ей рассуждать на основе сложных вербальных и визуальных данных и разрабатывать позы человека. Это приводит к возникновению новых задач, реализуемых благодаря этой способности, и бенчмаркам для оценки производительности любой модели.