DIRFA превращает аудиофрагменты в реалистичные цифровые лица

DIRFA превращение аудиофрагментов в реалистичные цифровые лица

В замечательном прорыве в области искусственного интеллекта и мультимедийной коммуникации команда исследователей из Singaporeskого технологического университета Нанъянг (NTU Singapore) представила инновационную компьютерную программу с названием DIRFA (Diverse yet Realistic Facial Animations).

Этот прорыв на базе искусственного интеллекта демонстрирует потрясающую возможность: превращение обычного аудиофайла и статичной фотографии лица в реалистичные трехмерные анимированные видеоролики. Видео не только точно синхронизируется с аудио по движению губ, но также воспроизводит богатый набор лицевых выражений и естественных движений головы, расширяя возможности создания цифровых медиа.

Развитие DIRFA

Основой функциональности DIRFA является его продвинутый алгоритм, который бесшовно сочетает аудио с изображением, чтобы создать трехмерные видеоролики. Тщательный анализ речевых моделей и тона в аудио позволяет DIRFA интеллектуально предсказывать и воспроизводить соответствующие лицевые выражения и движения головы. Это означает, что результатное видео изображает диктора с высокой степенью реализма, движения лица совершенно точно синхронизированы с тонкостями произнесенных слов.

Разработка DIRFA представляет собой значительное улучшение по сравнению с предыдущими технологиями в этой области, которые часто сталкивались со сложностями с различными позами и эмоциональными выражениями.

Традиционным методам обычно было сложно точно воспроизводить нюансы человеческих эмоций или они были ограничены в своей способности обрабатывать различные позы головы. Однако DIRFA превосходит в этом отношении, способен захватить широкий спектр эмоциональных нюансов и приспособиться к различным положениям головы, предлагая более гибкий и реалистичный результат.

Это продвижение не только является шагом вперед в сфере искусственного интеллекта, но также открывает новые горизонты в области взаимодействия и использования цифровых медиа, предлагая предвкушение будущего, в котором цифровая коммуникация приобретает более личный и выразительный характер.

Эта программа AI создает трехмерные видеоролики из фотографии и аудиофайла

Обучение и технология DIRFA

Способность DIRFA точно воспроизводить лица и движения головы, схожие с реальными, является результатом обширного процесса обучения. Команда университета NTU Singapore обучила программу на огромном наборе данных – более одного миллиона аудиовизуальных клипов из набора данных VoxCeleb2.

Этот набор данных включает в себя разнообразие лицевых выражений, движений головы и речевых моделей от более чем 6 тысяч человек. Изучая такой обширный и разнообразный набор аудиовизуальных данных, программа научилась распознавать и воспроизводить тончайшие особенности, характеризующие лица и речь человека.

Ассоциированный профессор Лу Шицзянь, соответствующий автор этого исследования, и доктор У Ронглиан, первый автор, поделились ценными идеями о значимости своей работы.

“Влияние нашего исследования может быть глубоким и обширным, так как это революционизирует область мультимедийной коммуникации, позволяя создавать высокореалистичные видео с выразительностю говорящих людей, объединяя техники искусственного интеллекта и машинного обучения”, – сказал асс. проф. Лу. “Наша программа развивает предыдущие исследования и представляет собой прогресс в технологии, так как видео, созданные с использованием нашей программы, полностью точно передают движение губ, выразительные лицевые выражения и естественные положения головы только по аудиозаписям и статичным изображениям”.

Доктор У Ронглиан добавил: “Речь имеет множество вариаций. В различных контекстах люди произносят одни и те же слова по-разному, включая изменения продолжительности, амплитуды, тона и многое другое. Кроме того, помимо лингвистического содержания, речь содержит обширную информацию о эмоциональном состоянии говорящего и факторы его личности, такие как пол, возраст, этническая принадлежность и даже черты характера. Наш подход является первоначальной попыткой улучшить производительность с точки зрения обучения представлений звука в области искусственного интеллекта и машинного обучения”.

Сравнение DIRFA с современными методами генерации анимации лица по аудио. (NTU Singapore)

Потенциальные применения

Одним из наиболее перспективных применений DIRFA является сфера здравоохранения, особенно разработка совершенных виртуальных ассистентов и чат-ботов. Благодаря способности создавать реалистичную и отзывчивую анимацию лиц, DIRFA может значительно улучшить пользовательский интерфейс в цифровых платформах здравоохранения, делая взаимодействие более личным и увлекательным. Эта технология может быть ключевой в предоставлении эмоционального комфорта и персонализированного ухода через виртуальных VoAGI, что часто отсутствует в существующих цифровых решениях в сфере здравоохранения.

DIRFA также имеет большой потенциал в помощи людям с речевыми или лицевыми нарушениями. Для тех, кто сталкивается с трудностями в вербальном общении или выражении лиц, DIRFA может служить мощным инструментом, позволяющим им выражать свои мысли и эмоции через выразительных аватаров или цифровые изображения. Это может повысить их эффективность в коммуникации, сокращая разрыв между их намерениями и выражениями. Предоставляя цифровое средство выражения, DIRFA может сыграть ключевую роль в автономии этих людей, предлагая им новые возможности для взаимодействия и самовыражения в цифровом мире.

Трудности и будущие направления

Создание реалистичных выражений лица только на основе звукового входа является сложной задачей в области искусственного интеллекта и мультимедийной коммуникации. Текущие успехи DIRFA в этой области заслуживают внимания, но изящество человеческих выражений означает, что всегда есть место для усовершенствования. Речевой шаблон каждого человека уникален, и их лицевые выражения могут сильно отличаться, даже при одинаковом звуковом входе. Уловить эту разнообразность и тонкость остается главной задачей для команды DIRFA.

Доктор У признает определенные ограничения в текущей версии DIRFA. В частности, интерфейс программы и степень контроля над выходными выражениями нуждаются в совершенствовании. Например, ограничение в возможности изменить конкретное выражение, например, изменив грусть на улыбку, является препятствием, которое они стремятся преодолеть. Преодоление этих ограничений критически важно для расширения применимости DIRFA и доступности для пользователей.

В будущем команда NTU планирует усовершенствовать DIRFA с помощью более широкого спектра наборов данных, включая более широкий набор лицевых выражений и аудиозаписей голоса. Ожидается, что это расширение дальнейшим образом улучшит точность и реализм генерируемых DIRFA лицевых анимаций, сделав их более гибкими и приспособленными к различным контекстам и применениям.

Влияние и потенциал DIRFA

DIRFA, с его новаторским подходом к синтезу реалистичных лицевых анимаций по звуку, готов изменить область мультимедийной коммуникации. Эта технология расширяет границы цифрового взаимодействия, смешивая границу между цифровым и физическим мирами. Позволяя создавать точные и реалистичные цифровые представления, DIRFA повышает качество и аутентичность цифровой коммуникации.

Будущее технологий, подобных DIRFA, в улучшении цифровой коммуникации и представления является огромным и захватывающим. С постоянной эволюцией этих технологий они обещают предлагать более погружающие, персонализированные и выразительные способы взаимодействия в цифровом пространстве.

Здесь вы можете найти опубликованное исследование.