Исследователи Tencent представляют FaceStudio инновационный подход искусственного интеллекта к генерации текста в изображение, с акцентом на сохранение идентичности.

FaceStudio инновационный подход к генерации текста в изображение с помощью искусственного интеллекта и акцентом на сохранение идентичности – представление от исследователей Tencent

Модели диффузии текста в изображения представляют интересную область исследований в искусственном интеллекте. Они стремятся создавать живописные изображения на основе текстовых описаний с использованием моделей диффузии. Процесс включает в себя поэтапное создание образцов из базового распределения, постепенное преобразование их таким образом, чтобы они напоминали целевое изображение с учетом текстового описания. В процессе используется несколько шагов, добавляющих прогрессивный шум к сгенерированному изображению.

Существует действующий вызов для текущих моделей диффузии текста в изображения: точное изображение объекта, учитывая только текстовые описания. Это ограничение особенно заметно, когда необходимо создавать сложные детали, такие как особенности лица человека. В результате растет интерес к исследованию синтеза изображений, сохраняющего идентичность и выходящего за рамки текстовых подсказок.

Исследователи из Tencent предложили новый подход, сосредоточенный на синтезе изображений с сохранением идентичности для изображений людей. Их модель предпочитает прямой подход с пропуском сложных шагов тонкой настройки для быстрого и эффективного создания изображений. Она использует текстовые подсказки и добавляет дополнительную информацию из стилевых и идентификационных изображений.

Их метод включает механизм мульти-идентификационного внимания, позволяющий модели связывать конкретные сведения руководства от различных личностей с различными частями человеческого тела на изображении. Обучая свою модель наборами данных, содержащими изображения людей, используя особенности лица как входные данные для идентификации, модель учится восстанавливать изображения людей, подчеркивая особенности идентичности в руководстве.

Их модель демонстрирует впечатляющую способность синтезировать изображения людей, сохраняя идентичность объекта. Более того, она позволяет наложить особенности лица пользователя на различные стилизованные изображения, такие как мультфильмы, позволяя пользователям представить себя в различных стилях, сохраняя свою идентичность. Кроме того, она превосходит в генерации идей, которые сочетают в себе несколько личностей, если предоставлены соответствующие исходные фотографии.

Их модель демонстрирует превосходную производительность в сценариях одиночной и множественной съемки, подчеркивая эффективность своего дизайна в сохранении идентичности. В то время как базовая восстановление изображения примерно сохраняет его содержимое, она затрудняется с тонкой информацией об идентичности. Напротив, их модель успешно извлекает информацию об идентичности из ветви руководства, что приводит к улучшенным результатам для области лица.

Однако, способность модели реплицировать человеческие лица вызывает этические вопросы, особенно в отношении возможного создания оскорбительных или культурно неподходящих изображений. Ответственное использование этой технологии крайне важно, требуя создания руководящих принципов, чтобы предотвратить ее злоупотребление в чувствительных контекстах.