Исследователи из Стэнфордского университета и FAIR Meta представляют CHOIS Революционный метод искусственного интеллекта для синтеза реалистичных трехмерных взаимодействий человека с объектами, основанный на языке.

Новейший метод CHOIS исследователи из Стэнфордского университета и FAIR Meta представляют революционный подход искусственного интеллекта для создания реалистичных трехмерных взаимодействий между людьми и объектами на основе языка.

Проблема синхронизации движений объектов и людей в 3D-сцене была решена исследователями из Стэнфордского университета и FAIR Meta путем внедрения системы CHOIS. Система работает на основе редких точек маршрута объектов, начального состояния предметов и людей, а также текстового описания. Она контролирует взаимодействия между людьми и объектами, создавая реалистичные и управляемые движения для обоих сущностей в указанной 3D-среде.

Используя масштабные наборы данных захвата движения, такие как AMASS, возрос интерес к генерации движений человека, в том числе с использованием действия и текста. В то время как предыдущие работы использовали VAE для разнообразной генерации движений человека из текста, CHOIS фокусируется на взаимодействии человека и объекта. В отличие от существующих подходов, которые часто сосредоточены на синтезе движений рук, CHOIS рассматривает движения всего тела перед захватом объекта и предсказывает движение объекта на основе движений человека, предлагая комплексное решение для интерактивных 3D-симуляций.

CHOIS решает важную задачу синтеза реалистичных поведенческих моделей человека в 3D-среде, что критично для компьютерной графики, воплощенного искусственного интеллекта и робототехники. CHOIS продвигает предмет области, генерируя синхронизированные движения человека и объекта на основе языковых описаний, начального состояния и редких точек маршрута объекта. Он решает такие проблемы, как генерация реалистичных движений, учет загромождения среды и синтез взаимодействий по языковым описаниям, представляя собой комплексную систему для управляемых взаимодействий между человеком и объектом в разнообразных 3D-сценах.

Модель использует условный подход диффузии для генерации синхронизированных движений объекта и человека на основе текстовых описаний, геометрии объекта и начальных состояний. Ограничения включаются в процессе выборки, чтобы обеспечить реалистичный контакт между человеком и объектом. В процессе обучения функцией потери модель направляется на предсказание преобразований объекта без явного накладывания ограничений контакта.

Система CHOIS тщательно оценивается на основе базовых данных и абляций, демонстрируя превосходную производительность по метрикам, таким как соответствие условию, точность контакта, уменьшение проникновения руки в объект и плавание стопы. На наборе данных FullBodyManipulation потеря геометрии объекта повышает возможности модели. CHOIS превосходит базовые данные и абляции на наборе данных 3D-FUTURE, что демонстрирует ее обобщение на новые объекты. Человеческие восприятия позволяют выделить преимущества CHOIS в отношении ввода текста и качества взаимодействия по сравнению с базовой моделью. Количественные метрики, включая ошибки позиции и ориентации, измеряют отклонение сгенерированных результатов от истинного движения.

В заключение, CHOIS – это система, которая генерирует реалистичные взаимодействия между человеком и объектом на основе языковых описаний и редких точек маршрута объекта. В процессе учета геометрии объекта во время обучения и использования эффективных видов направления во время выборки усиливается реализм результатов. Модуль взаимодействия, изученный CHOIS, может быть интегрирован в процесс для синтеза долгосрочных взаимодействий на основе языка и 3D-сцен. CHOIS значительно улучшил генерацию реалистичных взаимодействий между человеком и объектом, соответствующих предоставленным языковым описаниям.

В дальнейшем исследования могут быть направлены на улучшение CHOIS путем интеграции дополнительного наблюдения, например, потери геометрии объекта, для улучшения соответствия сгенерированного движения объекта с входными точками маршрута. Исследование продвинутых видов направления для обеспечения ограничений контакта может привести к более реалистичным результатам. Расширение оценки на разнообразные наборы данных и сценарии проверит способность CHOIS к обобщению. Дальнейшие исследования человеческого восприятия могут предоставить более глубокие инсайты в сгенерированные взаимодействия. Применение изученного модуля взаимодействия для генерации долгосрочных взаимодействий на основе точек маршрута объекта из 3D-сцен также расширит область применения CHOIS.