Исследователи S-Lab и NTU предлагают Scenimefy новая полу-надзорная рамка перевода изображений в изображения, которая сокращает разрыв в автоматическом создании высококачественной анимационной сцены из реальных изображений.

Исследователи предлагают новую рамку перевода изображений, которая создает анимационную сцену из реальных изображений.

Аниме-пейзажи требуют большого творческого таланта и времени для создания. Поэтому разработка методов на основе обучения для автоматической стилизации сцен имеет неоспоримую практическую и экономическую значимость. Автоматическая стилизация значительно улучшилась благодаря последним разработкам в области генеративных состязательных сетей (GAN), однако большинство исследований в основном сосредоточены на человеческих лицах. Процесс создания высококачественных аниме-пейзажей из сложных фотографий реальных сцен все еще требует изучения, несмотря на их значительную научную ценность. Из-за нескольких факторов преобразование фотографий реальных сцен в аниме-стили требует большого количества работы.

1) Композиция сцены: Рисунок 1 иллюстрирует иерархию между передними и задними частями сцены, которые часто состоят из нескольких элементов, соединенных сложным образом.

2) Характеристики аниме: Рисунок 1 показывает, как предварительно разработанные мазки кисти используются в естественных средах, таких как трава, деревья и облака, чтобы создать характерные текстуры и точные детали, которые определяют аниме. Органический и ручной характер этих текстур делает их значительно более сложными для имитации, чем четкие грани и однородные цветовые пятна, указанные в предыдущих экспериментах.

3) Недостаток данных и разрыв в домене: Качественный набор аниме-пейзажей имеет важное значение для сокрытия разрыва между реальными и аниме-сценами, которые имеют значительную разницу в домене. Существующие наборы данных низкого качества из-за большого количества человеческих лиц и других передних элементов, которые имеют отличный эстетический вид от фонового ландшафта.

Рисунок 1: Характеристики аниме-сцены. Наличие ручных мазков кисти травы и камней (передний план), а также деревьев и облаков (фон), в отличие от четких границ и плоских поверхностей, можно увидеть на кадре сцены из фильма “Дети, которые гоняются за потерянными голосами” Синкай 2011 года.

Безнадзорный перевод изображения в изображение – популярный метод для сложной стилизации сцен без парных обучающих данных. Существующие техники, которые сосредоточены на аниме-стилях, должны догнать в нескольких областях, несмотря на обещающие результаты. Во-первых, отсутствие пиксельной корреляции в сложных сценах затрудняет выполнение очевидной стилизации текстуры с сохранением семантического значения, что может привести к необычным результатам и заметным артефактам. Во-вторых, некоторые методы не создают тонких деталей аниме-сцен. За это отвечают созданные специально для аниме потери или предварительно извлеченные представления, которые обеспечивают четкость границ и поверхностей.

Для решения вышеупомянутых проблем исследователи из S-Lab, Технологического университета Наньян предлагают Scenimefy, уникальный полу-надзорный конвейер преобразования изображений в изображения (I2I) для создания высококачественных аниме-стилей сцен. Рисунок 2. Их основное предложение заключается в использовании созданных псевдопарных данных для введения новой надзорной ветки обучения в безнадзорную структуру для устранения недостатков безнадзорного обучения. Они используют преимущества StyleGAN, настраивая его для предоставления грубых парных данных между реальным и аниме или фальшивыми парами данных.

Рисунок 2 показывает изображения аниме-сцен от Scenimefy. Верхний ряд: переведенные изображения; нижний ряд: результаты перевода.

Они предлагают новый подход к полу-надзорному настройке, который использует богатые предварительно обученные модели, такие как CLIP и VGG, для направления StyleGAN на захват сложных деталей сцены и снижения переобучения. Они также предлагают технику выбора данных с учетом сегментации для фильтрации низкокачественных данных. Используя псевдопарные данные и уникальную потерю стиля на основе патчей, Scenimefy создает тонкие детали между двумя доменами и изучает эффективную пиксельную корреспонденцию. Их полу-надзорная структура пытается найти желаемый компромисс между верностью и качеством стилизации сцены и безнадзорной веткой обучения.

Они также собрали высококачественный набор данных чистых сцен аниме для помощи в обучении. Они провели широкий ряд тестов, демонстрирующих эффективность Scenimefy, превосходящую отраслевые стандарты восприятия качества и количественной оценки. Вот обзор их основных вкладов:

• Они предлагают новый полусупервизионный фреймворк стилизации сцены, который преобразует фактические фотографии в сложные изображения сцен аниме отличного качества. Их система добавляет уникальную потерю стиля контраста путем патчевого сравнения для улучшения стилизации и мелких деталей.

• Недавно разработанная техника донастройки StyleGAN с ограничениями семантики и богатым предварительно обученным направляющим сигналом, за которыми следует схема выбора данных с учетом сегментации, создает структурно согласованные псевдопарные данные, которые служат основой для обучения.

• Они собрали коллекцию высокого разрешения сцен аниме для помощи в будущих исследованиях по стилизации сцен.