Теперь у трехмерных моделей тела есть звук Meta AI представляет модель искусственного интеллекта, способную генерировать точный трехмерный пространственный звук для полного человеческого тела.
Новинка! Теперь трехмерные модели тела могут 'говорить' Meta AI представляет модель искусственного интеллекта, которая создает реалистичное пространственное звучание для полного трехмерного тела.
“`html
Постоянное развитие интеллектуальных систем, воссоздающих и понимающих человеческое поведение, привело к значительным прогрессам в дополняющих областях компьютерного зрения и искусственного интеллекта (ИИ). Модели машинного обучения приобретают огромную популярность, сокращая разрыв между реальностью и виртуальностью. Несмотря на то, что 3D-моделирование человеческого тела получило много внимания в области компьютерного зрения, задача моделирования акустической стороны и создания 3D-пространственного звука из речи и движения тела остается предметом обсуждения. Основное внимание всегда уделялось визуальной точности искусственных представлений человеческого тела.
Человеческое восприятие является мультимодальным, так как оно объединяет в себе как звуковые, так и визуальные сигналы для понимания окружающей среды. Для создания ощущения присутствия и погружения в 3D-мир необходимо точно имитировать 3D-звук, соответствующий визуальному изображению. Для решения этих задач команда исследователей из Shanghai AI Laboratory и Meta Reality Labs Research представила модель, которая создает точное пространственное аудио 3D-представление для всего человеческого тела.
Команда поделилась, что предложенная техника использует шлемные микрофоны и данные о позе человеческого тела для точной синтезации пространственного звука 3D. В качестве примеров ввода использовались данные об аудио с шлемных микрофонов и о позе тела, которые используются для анимации аватара.
- Google AI предлагает простую и эффективную модель преобразования текста в речь E3-TTS на основе диффузии
- Флаггирование вредоносного контента с использованием обнаружения токсичности Amazon Comprehend
- Познакомьтесь с GraphCast от DeepMind прорыв в прогнозировании погоды при помощи машинного обучения
Текущие методы пространственной звуковой реконструкции предполагают, что источник звука известен и записан там недеформированным. Предложенный подход обходит эти проблемы, используя данные о позе тела для обучения мультимодальной сети, которая различает источники различных шумов и создает точные пространственные сигналы. Выходом является звуковая область, окружающая тело, а входом являются аудио с семи шлемных микрофонов и поза субъекта.
Команда провела эмпирическую оценку, демонстрирующую, что модель может надежно создавать звуковые поля, возникающие из движений тела, при обучении с помощью соответствующей функции потерь. Код и набор данных модели доступны для общественного использования в Интернете, поддерживая открытость и возможность повторения, а также дополнительное развитие в этой области. Репозиторий GitHub доступен по адресу https://github.com/facebookresearch/SoundingBodies.
Основные достижения работы были суммированы командой следующим образом:
- Была предложена уникальная техника, использующая шлемные микрофоны и позы тела для создания реалистичных звуковых полей 3D для человеческого тела.
- Было представлено комплексное эмпирическое исследование, которое подчеркивает важность позы тела и продуманной функции потерь.
- Команда поделилась новым набором данных, включающим многокадровые данные о человеческом теле и звуковые записи, полученные с помощью массива из 345 микрофонов.
“`