ЧИТАТЬ Аватары Реалистичные аудиоуправляемые аватары с эмоциями

Реалистичные аудиоуправляемые аватары с эмоциями - Realistic audio-controlled avatars with emotions.

Добавление эмоционального контроля к аудио-ориентированным фейковым видео

READ Avatars берет исходное видео и любое аудио и может создавать видео с синхронизацией губ в любой эмоции с точной настройкой интенсивности.

Одним из критических ограничений существующих аудио-ориентированных фейковых видео является необходимость большего контроля над стилевыми характеристиками. В идеале, мы хотели бы изменить эти аспекты, например, сделать сгенерированное видео веселым или грустным, или использовать стиль речи определенного актера. READ Avatars ищет именно это, модифицируя существующие, высококачественные модели, специфические для каждого человека, чтобы работать с прямым контролем стилей.

Написав несколько блог-постов, посвященных моделям фейковых видео в прошлом, этот имеет для меня особое значение, так как это моя собственная работа. Статья только что была принята на этогодний BMVC, и это моя первая принятая статья! В этой статье я расскажу о мотивации, интуиции и методологии работы.

Что такое стиль?

Первое место, с которого следует начать, рассматривая стилевой контроль, – это задать вопрос о том, что именно подразумевается под стилем. Ответ, который я обычно даю, несколько уклончив: Стиль – это все, что есть в наших данных, что не является содержимым. Это может показаться просто сменой определения с одного слова на другое, но это упрощает задачу. В контексте аудио-ориентированных фейковых видео, содержимым является сама речь, движения губ, соответствующие аудио, а также внешний вид лица.

То есть стиль – это все, что модифицирует видео, при этом сохраняя внешний вид одного и того же человека и соблюдая синхронизацию губ.

В случае моего исследования я обычно рассматриваю две конкретные формы стиля: эмоциональный и идиосинкратический. Эмоциональный стиль просто выражение эмоции на лице, тогда как идиосинкратический стиль относится к различиям в выражении между отдельными людьми. Например, то, как улыбка выглядит на моем лице по сравнению с вашим, является примером идиосинкратического стиля. Это не единственные виды стилей, но они являются одними из самых простых для демонстрации и работы. В этой работе мы использовали только эмоциональные стили, так как работали с моделями, специфическими для каждого человека.

Представление эмоционального стиля

READ Avatars не первая работа, которая изучает изменение эмоционального стиля в генерации аудио-ориентированного видео. Однако ранее использовались методы, представляющие эмоцию либо в виде вектора с одной активной единицей, либо в виде абстрактного латентного представления (посмотрите EVP и EAMM для соответствующих примеров). В первом случае недостаточно точности, чтобы обеспечить точный контроль над эмоциональным стилем, а во втором случае отсутствует семантическое значение. По этой причине мы решили использовать другое представление эмоции.

Для представления N различных эмоций мы используем N-мерный вектор, где каждая размерность представляет одну из эмоций и имеет действительное значение от 0 до 1. Максимальная возможная выраженность этой эмоции равна 1. Вектор из нулей соответствует отсутствию эмоции (нейтральное состояние).

4-мерный вектор эмоций может, например, представлять счастье, грусть, злость и удивление.

Базовая модель

Для достижения наивысшего визуального качества мы основываем нашу модель на основе 3DMM-подхода предыдущих работ. Я рассмотрел это в предыдущей статье, если вам интересно! В частности, мы используем подход с нейронными текстурами, где мы тренируем текстуру на основе UV-координат с использованием многоканального подхода сети UNET для преобразования изображения в изображение.

Подход с нейронными текстурами Theis et al. (Neural Voice Puppetry). Наша модель основана на этой работе, но с существенными модификациями.

Поскольку нам нужно работать с эмоциями, нам необходимо сгенерировать весь облик лица, а не только регион рта. Для этого все, что нам нужно сделать, это изменить маску рта (как показано на изображении выше) на полную маску лица.

Наивным подходом может быть просто связывание сети от аудио к выражению с эмоциональным кодом, который мы только что определили (см. мою предыдущую публикацию для получения более подробной информации о сетях от аудио к выражению). Однако это не работает так хорошо, как хотелось бы. Мы предлагаем две потенциальные причины для этого – недостаток деталей в базовой модели 3DMM и эффекты излишнего сглаживания регрессионных потерь.

Недостаток деталей в 3DMM

Первая из проблем связана с неспособностью 3DMM представить геометрию лица. Проблема двойная. Во-первых, 3DMM не может точно передать форму губ в виде буквы “O”. Это можно увидеть на рисунке ниже. Более серьезной проблемой является полное отсутствие представления внутренней части рта, включая зубы и язык.

На этом изображении мы попытались представить лицо человека с помощью 3DMM; обратите внимание, как он не может точно передать форму губ в виде буквы O.

Это приводит к потенциальным неоднозначностям в изображениях, передаваемых сети изображений на изображения. Например, без языка звуки “UH” и “L” выражаются одинаково, в этом случае, как сеть знает, что нужно сгенерировать внутри рта?

Чтобы преодолеть эту проблему, мы добавляем аудио непосредственно в процесс генерации видео. Мы делаем это, связывая нейронную текстуру с аудио. Мы используем промежуточные слои Wav2Vec2 в качестве извлекателя признаков и кодируем это аудио в латентное представление. Затем это используется для связывания сети SIREN, использующей двумерные кодировки позиций, которая выводит 16-канальную нейронную текстуру, изменяющуюся с аудио (см. ниже). Для получения более подробной информации об архитектуре вы можете ознакомиться с архивной версией статьи.

Нейронная текстура (жуткая) изменяется в зависимости от входного аудио.

Это позволяет сети изображений на изображения иметь достаточно информации для разрешения таких неоднозначностей.

Сглаживание из-за регрессионных потерь

Пример графика, показывающего, как модели на основе регрессии (красные) берут среднее значение всех возможных допустимых последовательностей (синие). Это может привести к очень гладкому движению. Модели GAN (зеленые) этого не делают.

Существующие модели от аудио к выражению обучены с использованием потерь на основе регрессии, обычно L1 или L2. У них есть заметный недостаток для анимации лица: они создают очень гладкое движение. Если для данного аудио существует две возможные последовательности, модель на основе регрессии выберет среднее значение этих двух, что приведет к сглаживанию пиков движения и созданию приглушенного движения. Это особенно важно для создания анимации эмоций, так как части лица, не связанные с аудио, например, брови, могут двигаться в любое время, что приводит к большому количеству сглаживания и худшему представлению эмоций.

Модели на основе GAN решают эту проблему. Дискриминатор научится помечать любое гладкое движение как поддельное, и, следовательно, генератор будет вынужден производить реалистичное, живое движение.

Результаты

Сравнение нашего метода с передовыми

Действительно, предложенные нами модификации привели к улучшению результатов. Нам удалось получить результаты, превосходящие текущий уровень.

Изъятие аудио-условия в нейронной текстуре.

Заключение и будущая работа

READ Avatars внес несколько важных изменений, которые позволяют расширить модели на основе 3DMM для включения эмоционального стиля. Работа дает интересные результаты! Однако есть определенные недостатки. Хотя синхронизация губ лучше, чем у любой существующей эмоциональной модели, она все же далека от идеала. Мы считаем, что это можно улучшить, добавив экспертный дискриминатор, например, используемый в wav2lip, и с использованием более качественных моделей аудио-в-выражение, таких как Imitator.

В будущем было бы полезно модифицировать больше стилей, например, индивидуальный стиль. Это можно использовать, например, чтобы Джо Байден говорил с движениями губ Дональда Трампа, что может быть интересно! Для этого нам потребуется создать обобщенные модели нейронной текстуры, что представляет собой интересное научное направление и текущую цель для будущих исследований.

В целом, это был очень интересный проект, и я рад опубликовать свою первую научную статью. Я с нетерпением жду дальнейших исследований, которые продолжатся после этой работы. Как всегда, если у вас есть вопросы или отзывы, пожалуйста, сообщите мне в комментариях!