Исследователи в лаборатории искусственного интеллекта Tencent представляют IP-адаптер адаптер текстово-совместимого изображения для моделей диффузии текста в изображение.

Researchers at Tencent's Artificial Intelligence Laboratory have developed an IP adapter for text-to-image diffusion models.

«Яблоко», и сразу же в голову приходит изображение яблока. И, как удивительно, как работают наши мозги, Генеративный ИИ позволяет машинам создавать то, что мы называем оригинальным контентом. В последнее время появились впечатляющие модели текст-в-изображение, которые создают высокореалистичные изображения. Вы можете подать «яблоко» в модель и получить все виды изображений яблок.

Однако создание моделей, которые генерируют именно то, что мы хотим, только с помощью текстовых подсказок, может быть чрезвычайно сложным. Обычно для этого требуется тщательное создание правильных подсказок. Альтернативным способом является использование изображений в качестве подсказок. В то время как текущий набор техник для прямого улучшения моделей из уже существующих успешен, они требуют значительных вычислительных ресурсов и несовместимы с различными базовыми моделями, текстовыми подсказками и структурными настройками.

Недавние достижения в области контролируемой генерации изображений подчеркивают проблемы с модулями перекрестного внимания моделей диффузии текст-в-изображение. Эти модули используют веса, настроенные для проекции ключевых и значений в перекрестном слое внимания предобученной модели диффузии, в основном оптимизированных для текстовых признаков. В результате объединение признаков изображения и текста в этом слое главным образом выравнивает признаки изображения с признаками текста. Однако это может игнорировать специфические детали изображения, что приводит к более широкому контролю во время генерации (например, управление стилем изображения) при использовании изображения-эталона.

На приведенном выше изображении мы можем заметить, что примеры справа показывают результаты вариаций изображений, мультимодальной генерации и заполнения с изображением-подсказкой, в то время как примеры слева показывают результаты контролируемой генерации с изображением-подсказкой и дополнительными структурными условиями.

Исследователи представили эффективный адаптер для изображений подсказок, называемый IP-адаптером, чтобы справиться с вызовами, возникшими в результате текущих методов. IP-адаптер использует отдельный подход для обработки признаков текста и изображений. В UNet модели диффузии исследователи добавили дополнительный слой перекрестного внимания специально для признаков изображения. Во время обучения настройки нового слоя перекрестного внимания изменяются, оставляя исходную модель UNet неизменной. Этот адаптер эффективен и мощен: даже с всего лишь 22 миллионами параметров адаптер IP может генерировать изображения так же хороши, как полностью донастроенная модель изображения-подсказки, полученная из модели диффузии текст-в-изображение.

Эксперименты показали, что адаптер IP является многоразовым и гибким. Адаптер IP, обученный на базовой модели диффузии, может быть обобщен на другие пользовательские модели, донастроенные на основе той же базовой модели диффузии. Более того, адаптер IP совместим с другими контролируемыми адаптерами, такими как ControlNet, что позволяет легко сочетать изображения-подсказки со структурными элементами управления. Благодаря отдельной стратегии перекрестного внимания, изображение-подсказка может работать вместе с текстовой подсказкой, создавая мультимодальные изображения.

На приведенном выше изображении демонстрируется сравнение IP-адаптера с другими методами при различных структурных условиях. Несмотря на эффективность IP-адаптера, он может генерировать только изображения, похожие на исходные изображения по содержанию и стилю. Другими словами, он не может синтезировать изображения, которые сильно соответствуют теме заданного изображения, как некоторые существующие методы, например, Текстовая инверсия и DreamBooth. В будущем исследователи намерены разработать более мощные адаптеры для изображений-подсказок, чтобы улучшить согласованность.