Познакомьтесь с Decaf новым фреймворком искусственного интеллекта для захвата моноокулярных деформаций при взаимодействии лица и рук.

Ознакомьтесь с Decaf новым фреймворком искусственного интеллекта для обнаружения и анализа моноокулярных деформаций при взаимодействии лица и рук

Трехмерное (3D) отслеживание объектов по видеоряду из одной RGB-камеры – это передовая область в компьютерном зрении и искусственном интеллекте. Оно концентрируется на оценке трехмерного положения и движений объектов или сцен с использованием только одного двумерного видеоряда.

Существующие методы трехмерного отслеживания по видеоряду из одной RGB-камеры в основном сосредоточены на артикулированных и жестких объектах, таких как две руки или человек, взаимодействующий с жесткой средой. Проблема моделирования плотных неартикулированных деформаций объектов, таких как взаимодействие руки и лица, в значительной мере была игнорирована. Однако эти деформации могут значительно повысить реалистичность применений, таких как дополненная и виртуальная реальность, трехмерная виртуальная коммуникация с аватаром и анимации персонажей. Ограниченное внимание к этой проблеме связано с врожденной сложностью установки моносмотра и сопутствующими сложностями, такими как приобретение соответствующих обучающих и оценочных наборов данных и определение разумной неоднородной жесткости деформируемых объектов.

Поэтому в этой статье представлен новый метод, который решает вышеупомянутые фундаментальные проблемы. Он позволяет отслеживать взаимодействие человеческих рук с человеческими лицами в 3D по видеоряду из одной моносмотровой RGB-камеры. В рамках метода руки моделируются как артикулированные объекты, которые вызывают неартикулированные деформации лица во время активного взаимодействия. Обзор этой техники представлен на рисунке ниже.

В основе их нейросетевого подхода лежит вариационный автоэнкодер, который обеспечивает глубинную информацию для взаимодействия рук и лица. В качестве дополнительных модулей используются модули для управления процессом 3D-отслеживания путем оценки контактов и деформаций. Конечные 3D-восстановления рук и лиц, полученные с помощью этого метода, являются реалистичными и более правдоподобными по сравнению с несколькими базовыми методами, применимыми в данном контексте, что подтверждается количественной и качественной оценкой.

Восстановление как рук, так и лица одновременно, с учетом деформаций поверхности, возникающих при их взаимодействии, представляет собой значительно сложную задачу. Это особенно важно для повышения реалистичности восстановлений, так как такие взаимодействия часто наблюдаются в повседневной жизни и значительно влияют на впечатления, которые другие получают от человека. Следовательно, восстановление взаимодействия рук и лица важно для таких применений, как коммуникация с аватаром, виртуальная/дополненная реальность и анимация персонажей, где реалистичные движения лица необходимы для создания погружающих эффектов. Оно также имеет применение в таких областях, как разбор жестового языка и мониторинг сонливости водителя.

Несмотря на различные исследования, фокусирующиеся на восстановлении движений лица и рук и захвате взаимодействий между ними, а также соответствующих деформаций с использованием моносмотрового RGB-видеоряда, этот вопрос остается в значительной степени неизученным, как отмечают Третшк и др. в 2023 году. С другой стороны, попытки использовать существующие методы на основе шаблонов для восстановления рук и лица часто приводят к артефактам, таким как коллизии и пропуск взаимодействий и деформаций. Это прежде всего связано с врожденной глубинной неоднозначностью моносмотровых установок и отсутствием моделирования деформаций в процессе восстановления.

Поставлены несколько значительных вызовов, связанных с этой проблемой. Один вызов (I) – отсутствие набора данных захвата видеоряда RGB без маркеров для взаимодействия лица и рук с неартикулированными деформациями, который является важным для обучения моделей и оценки методов. Создание такого набора данных представляет существенные трудности из-за частых перекрытий, вызванных движениями рук и головы, особенно в областях, где происходят неартикулированные деформации. Другой вызов (II) возникает из врожденной глубинной неоднозначности моносмотровых RGB-установок, что затрудняет получение точной информации о локализации и приводит к ошибкам, таким как коллизии или отсутствие контакта между рукой и головой во время взаимодействия.

Для решения этих проблем авторы предлагают метод “Decaf” (сокращение от “деформационный захват лиц, взаимодействующих с руками”), моносмотровый RGB-метод, предназначенный для захвата взаимодействия лица и рук, включая лицевые деформации. Конкретно они предлагают комбинацию моносмотровой установки симулятора на основе позиционных динамик для восстановления геометрии взаимодействующих поверхностей даже в случае перекрытий. Для включения симулятора деформируемых объектов они определяют значения жесткости головной сетки с помощью метода, называемого “расстоянием между черепом и кожей” (SSD), который назначает неоднородную жесткость сетке. Подход значительно повышает качественную вероятность восстановленной геометрии по сравнению с использованием однородных значений жесткости.

Используя их новую набор данных, исследователи обучают нейронные сети извлекать трехмерные деформации поверхности, контактные области на поверхностях головы и рук и предварительную глубину взаимодействия из однообразных RGB-изображений. На финальном этапе оптимизации, это информация из различных источников используется для получения реалистичных трехмерных взаимодействий между руками и лицом с неупругими деформациями поверхности, разрешая неоднозначность глубины, присущую однообразной настройке. Представленные ниже результаты демонстрируют гораздо более правдоподобные взаимодействия между рукой и лицом, по сравнению с существующими подходами.

Это было краткое описание Decaf, новой архитектуры искусственного интеллекта, разработанной для захвата взаимодействий лица и рук вместе с деформациями лица. Если вас это заинтересовало и вы хотите узнать больше, пожалуйста, ознакомьтесь с ссылками, указанными ниже.