Google Research представляет MediaPipe FaceStylizer эффективное решение для стилизации лица в стиле few-shot

Google Research представляет MediaPipe FaceStylizer для стилизации лица в стиле few-shot

Исследователи и потребители в последние годы проявляют все большее энтузиазма к смартфонным приложениям, которые объединяют дополненную реальность (AR). Это позволяет пользователям генерировать и изменять черты лица в режиме реального времени для коротких видеороликов, виртуальной реальности (VR) и игр. Модели генерации и редактирования лица, основанные на подходах генеративно-состязательных сетей (GAN), пользуются популярностью, так как они легкие и сохраняют отличное качество. Однако большинство моделей GAN имеют серьезные ограничения в вычислительной сложности и требуют большого набора данных для обучения. Также важно этически использовать модели GAN.

Исследователи Google разработали MediaPipe FaceStylizer в качестве эффективного решения для стилизации лица с малым количеством обучающих примеров, учитывая эти проблемы с комплексностью модели и эффективностью данных. В этой модели инверсия GAN преобразует изображение в кодирование для генератора лица. Чтобы генерировать изображения высокого качества с разной степенью детализации от грубого к тонкому, они представляют мобильную сеть синтеза для генератора лица, включая вспомогательную головку, которая преобразует признаки в RGB на каждом уровне генератора. Кроме того, они дистиллировали генератор ученика из модели StyleGAN учителя, что привело к легкой модели, сохраняющей хорошее качество генерации путем тщательного проектирования функций потерь для вышеупомянутых вспомогательных головок и их комбинирования с общими функциями потерь GAN. MediaPipe предоставляет открытый доступ к предложенному решению. MediaPipe Model Maker позволяет пользователям настраивать генератор для изучения стиля на основе одной или нескольких фотографий. MediaPipe FaceStylizer позволит пользователям внедрять полученную модель в приложения для стилизации лица на устройствах.

С помощью задачи стилизации лица в MediaPipe Face stylizer можно улучшить или создать лица с нуля. Эта функция позволяет создавать виртуальных персонажей с широким спектром эстетических вариантов.

Для этой задачи используется модель BlazeFaceStylizer, включающая генератор лица и кодировщик лица. Легкая реализация семейства моделей StyleGAN, BlazeStyleGAN, производит и улучшает лица, соответствующие заданному эстетическому критерию. С помощью ядра MobileNet V2 кодировщик лица связывает входные фотографии с лицами, созданными генератором лица.

Цель проекта – предоставить конвейер, который поможет пользователям настраивать модель MediaPipe FaceStylizer под различные стили. Исследователи построили конвейер стилизации лица с кодировщиком инверсии GAN и эффективной моделью генератора лица (см. далее). Кодировщик и генератор затем могут быть обучены на нескольких примерах из разных стилей. Для начала пользователь отправит один или несколько представительных образцов желаемого эстетического критерия в MediaPipe ModelMaker. Модуль кодировщика замораживается во время процедуры настройки, и только генератор регулируется. Для обучения генератора выбираются несколько скрытых кодов вокруг выхода кодирования входных образов стиля. Затем оптимизируется совместная функция потерь адверсариальной модели для подготовки генератора к восстановлению изображения лица в том же эстетическом стиле, что и входное изображение стиля. Благодаря этому процессу настройки MediaPipe FaceStylizer достаточно гибок для адаптации под ввод пользователя. Этот метод позволяет стилизовать тестовые фотографии реальных лиц.

Исследователи в Google используют метод дистилляции знаний для обучения BlazeStyleGAN с использованием широко известной модели StyleGAN2 в качестве модели-инструктора. Кроме того, они обучают модель генерировать лучшие изображения, внедряя многошкальную функцию потерь в процесс обучения. BlazeStyleGAN имеет меньше параметров и более простые модели, чем MobileStyleGAN. Они проводят сравнительный анализ BlazeStyleGAN на нескольких мобильных устройствах, показывая, что он может работать в режиме реального времени на мобильных графических процессорах. Визуальное качество вывода BlazeStyleGAN очень близко к качеству модели-инструктора. Они также отмечают, что BlazeStyleGAN может улучшить визуальное качество в некоторых ситуациях, уменьшив артефакты, создаваемые моделью-инструктором. Результаты Frechet Inception Distance (FID) для BlazeStyleGAN сравнимы с результатами модели StyleGAN. Вот краткое описание вкладов:

  • Исследователи создали мобильную архитектуру, добавив дополнительную головку UpToRGB на каждом уровне генератора и использовав ее только во время вывода.
  • Вычисляя многошкальную функцию потерь с использованием вспомогательных головок и адверсариальной функции потерь на реальных изображениях, они улучшают технику дистилляции, что приводит к лучшей генерации изображений и уменьшению влияния артефактов от модели-инструктора.
  • BlazeStyleGAN может создавать изображения высокого качества в режиме реального времени на различных популярных смартфонах.

Исследовательская группа Google представила мировую первую модель StyleGAN (BlazeStyleGAN), которая может создавать фотографии лиц высокого качества в режиме реального времени на большинстве премиальных смартфонов. В эффективных моделях генерации на устройстве есть много возможностей для исследования. Чтобы уменьшить влияние артефактов модели-инструктора, они разработали улучшенную архитектуру для сети синтеза StyleGAN и настроили технику дистилляции. BlazeStyleGAN может обеспечить работу в реальном времени на мобильных устройствах в сравнении с моделью-инструктором, благодаря существенному снижению сложности модели.