Лаборатория искусственного интеллекта Tencent представляет прогрессивные условные модели диффузии (PCDM), которые поэтапно преодолевают разрыв между изображениями людей в заданной и исходной позах через три стадии.

Модели прогрессивной диффузии изображений людей в заданных и исходных позах новинки от лаборатории искусственного интеллекта Tencent

Область исследования синтеза изображений человека с учетом позы последние годы зарекомендовала себя, сосредоточившись на создании изображений человека с тем же внешним видом, но в другой позе. Эта технология имеет широкие применения в генерации контента электронной коммерции и может улучшить задачи нижестоящих категорий, такие как реидентификация человека. Однако она сталкивается с несколькими проблемами, в основном из-за несоответствий между исходной и целевой позами.

Исследователи изучили различные методы с использованием GAN, VAE и потоковых моделей, чтобы решить проблемы синтеза изображений человека с учетом позы. Подходы, основанные на GAN, требуют стабильного обучения и могут давать нереалистичные результаты. Методы, основанные на VAE, могут размывать детали и неправильно выравнивать позы, в то время как потоковые модели могут вносить артефакты. Некоторые методы используют карты разборки, но сталкиваются с проблемами стиля и текстуры. Модели диффузии обещают хорошие результаты, но сталкиваются с проблемами, связанными с несоответствиями поз, которые необходимо решить для улучшения результатов.

Для преодоления этих проблем недавно опубликованная статья представляет Прогрессивные условные модели диффузии (PCDM), которые постепенно генерируют высококачественные изображения в трех этапах: прогнозирование глобальных характеристик, установление плотных соответствий и улучшение изображений для лучшей согласованности текстуры и деталей.

Предложенный метод вносит значительный вклад в синтез изображений человека с учетом позы. Он представляет собой простую модель условной диффузии, которая генерирует глобальные характеристики целевого изображения, раскрывая соответствие между внешним видом и координатами позы исходного изображения. Инновационная модель условной диффузии заполнения устанавливает плотные соответствия, превращая несогласованную генерацию изображения-к-изображению в процесс согласованного смещения. Кроме того, модель условной диффузии улучшает качество и достоверность изображения.

(PCDM) состоят из трех основных этапов, вносящих свой вклад в общий процесс синтеза изображения:

2) Модель предварительной условной диффузии: На первом этапе модель прогнозирует глобальные характеристики целевого изображения, используя соответствие между координатами позы и внешним видом изображения. Модель использует сеть преобразования, зависящую от позы исходного и целевого изображений и исходного изображения. Глобальное вложение изображения, полученное из кодера изображения CLIP, направляет синтез целевого изображения. Функция потерь для этого этапа заставляет модель прогнозировать вложение изображения без шума. Этот этап снижает разрыв между исходными и целевыми изображениями на уровне характеристик.

2) Модель условной диффузии заполнения: Модель условной диффузии заполнения представляет собой второй этап. Она использует глобальные характеристики, полученные на предыдущем этапе, для установления плотных соответствий между исходными и целевыми изображениями, эффективно превращая задачу генерации несогласованных изображений в согласованную. Этот этап обеспечивает согласование между исходными и целевыми изображениями и их соответствующими позами на нескольких уровнях: изображение, поза и характеристика. Он направлен на улучшение согласованности между исходными и целевыми изображениями и является важным для создания реалистических результатов.

3) Модель условной диффузии улучшения: После генерации первоначального грубо-зернистого целевого изображения на предыдущем этапе модель условной диффузии улучшения повышает качество изображения и текстуры деталей. В этом этапе используется сгенерированное грубо-зернистое изображение, полученное во время последнего этапа, как условие, чтобы дальше улучшить достоверность изображения и согласованность текстуры. Это включает изменение первого сверточного слоя и использование кодера изображения для извлечения характеристик из исходного изображения. Механизм перекрестного взаимодействия обеспечивает вливание текстурных характеристик в сеть, чтобы восстановить текстуру и улучшить детали.

Метод проверяется путем комплексных экспериментов на общедоступных наборах данных, что показывает конкурентоспособные показатели с помощью количественных метрик (SSIM, LPIPS, FID). Пользовательское исследование дополнительно подтверждает эффективность метода. Исследование разделения ролей рассмотрело влияние отдельных этапов PCDM, подчеркивая их важность. Наконец, была демонстрирована применимость PCDM в персональной реидентификации, показывающая улучшение производительности по сравнению с базовыми методами.

В заключение, PCDM представляет собой значительный прорыв в синтезе изображений человека с учетом позы. Используя многоэтапный подход, PCDM эффективно решает проблемы согласования и соответствия поз, создавая высококачественные реалистичные изображения. Эксперименты демонстрируют их превосходные показатели в количественных метриках и пользовательских исследованиях, а их применимость в задачах персональной реидентификации дополнительно подчеркивает их практическую полезность. PCDM предлагает многообещающее решение для широкого спектра приложений, продвигая область синтеза изображений с учетом позы.