Познакомьтесь с HyperHuman новейшей системой AI для генерации гиперреалистичных изображений людей с помощью латентной структурной диффузии.

HyperHuman Новейшая система искусственного интеллекта для создания гиперреалистичных изображений людей через латентную структурную диффузию.

Генерация сверхреалистических изображений человека из определенных пользователем условий, таких как текст и поза, имеет значение для различных приложений, включая анимацию изображений и виртуальные примерочные. Были предприняты многочисленные усилия для исследования задачи управляемой генерации изображений человека. Ранние методы либо полагались на вариационные автоэнкодеры (VAE) в реконструктивном режиме, либо улучшали реалистичность с помощью генеративно-состязательных сетей (GAN). Несмотря на создание высококачественных изображений некоторыми методами, такие задачи, как нестабильное обучение и ограниченная емкость модели, ограничивают их до маленьких наборов данных с низкой разнообразностью.

Недавнее появление моделей распространения (DM) ввело новую парадигму реалистичного синтеза, ставших ведущей архитектурой в Генеративном ИИ. Однако примерные модели текст-в-изображение (T2I), такие как Stable Diffusion и DALL·E 2, по-прежнему сталкиваются с трудностями в создании человеческих изображений с согласованной анатомией, такой как руки, ноги и естественные позы. Основная сложность заключается в неупругих деформациях формы человека, требующих структурной информации, которую трудно изображать только с помощью текстовых подсказок.

Недавние работы, такие как ControlNet и T2I-Adapter, пытались обеспечить структурное управление генерацией изображений путем введения обучаемой ветви для модуляции заранее обученных моделей DM, таких как Stable Diffusion, в режиме «подключи и играй». Однако эти подходы страдают от расхождений особенностей между основной и вспомогательной ветвями, что приводит к несогласованности между сигналами управления (например, картами позы) и сгенерированными изображениями. HumanSD предлагает напрямую вводить скелет тела в диффузионную U-Net, используя конкатенацию по каналам, чтобы решить эту проблему. Однако этот метод ограничен генерацией художественного стиля с ограниченным разнообразием. Кроме того, человеческий контент синтезируется только с помощью контроля положения, игнорируя другую важную структурную информацию, такую как карты глубины и карты нормалей поверхности.

В работе, описанной в этой статье, предлагается единая структура HyperHuman для генерации преобладающих людей на изображениях с высокой реалистичностью и разнообразными композициями. Его обзор представлен на рисунке ниже.

Основным принципом является осознание внутренне структурного характера изображений людей на разных уровнях, от грубых схем тел до детальной пространственной геометрии. Захват таких корреляций между явной внешностью и латентной структурой в одной модели важен для создания согласованных и естественных изображений людей. В статье описывается крупномасштабный набор данных HumanVerse, содержащий 340 миллионов фотографий преобладающих людей на изображениях в природных условиях с подробными аннотациями. На основе этого набора данных разработаны два модуля для генерации гиперреалистичных управляемых изображений человека: модель латентно-структурного распространения и структурированная модель реализатора. Первая усиливает предварительно обученную основу диффузии, одновременно очищая RGB-, глубинные и нормальные аспекты, обеспечивая пространственное выравнивание среди очищенных текстур и структур.

Благодаря такому тщательному подходу моделирование внешности изображения, пространственных отношений и геометрии происходит внутри объединенной сети. Каждая ветвь дополняет другие, объединяя структурное сознание с текстурной богатостью. Усовершенствованное расписание шума устраняет утечку информации низкой частоты, обеспечивая равномерные значения глубины и нормали на локальных участках. Использование одного и того же временного шага для каждой ветви улучшает обучение и упрощает слияние функций. С помощью пространственно выровненных карт структуры структурированная модель реализатора составляет предсказанные условия для детальной генерации изображений с высоким разрешением. Кроме того, разработана надежная схема условного формирования, чтобы снизить влияние накапливания ошибок в двухэтапной системе генерации.

Результаты сравнения с передовыми техниками приведены ниже.

Первая сетка 4×4 каждой строки содержит входной каркас, вместе с декоррелированными нормалями, глубиной и грубым RGB (512×512), вычисленными с помощью HyperHuman.

Это было краткое описание HyperHuman, новой ИИ-платформы для генерации разнообразных и жизненных изображений людей в естественных условиях. Если вас это интересует и вы хотите узнать больше, пожалуйста, ознакомьтесь с ссылками, указанными ниже.