Концепт слайдеров точное управление в моделях диффузии с адаптерами LoRA

Точное управление концептом слайдеров в моделях диффузии с адаптерами LoRA

Благодаря их возможностям, диффузионные модели текст-изображение получили огромную популярность в художественном сообществе. Однако текущие модели, включая передовые фреймворки, часто испытывают трудности в поддержании контроля над визуальными концепциями и атрибутами в сгенерированных изображениях, что приводит к неудовлетворительным результатам. Большинство моделей полагаются только на текстовые подсказки, что создает сложности в модуляции непрерывных атрибутов, таких как интенсивность погоды, резкость теней, выражения лица или возраст человека. Это затрудняет пользователей в настройке изображений под свои конкретные потребности. Кроме того, хотя эти генеративные фреймворки производят высококачественные и реалистичные изображения, они часто подвержены искажениям, таким как искаженные лица или отсутствующие пальцы.

Для преодоления этих ограничений разработчики предложили использовать интерпретируемые слайдеры концепций. Эти слайдеры обещают больший контроль для конечных пользователей над визуальными атрибутами, улучшая генерацию и редактирование изображений в рамках диффузионных моделей. Слайдеры концепций в моделях диффузии работают путем идентификации параметра, соответствующего отдельному концепту, минимизируя вмешательство в другие атрибуты. Фреймворк создает эти слайдеры с использованием образцовых изображений или набора подсказок, таким образом устанавливая направления как для текстовых, так и для визуальных концепций.

В конечном итоге использование слайдеров концепций в моделях диффузии текста в изображение может привести к генерации изображений с минимальной степенью вмешательства и улучшенным контролем над конечным результатом, не изменяя содержания изображений, и, таким образом, создавая реалистичные изображения. В этой статье мы рассмотрим концепцию использования слайдеров концепций в текстовых моделях для генерации изображений более подробно и проанализируем, как их использование может привести к созданию изображений искусственного интеллекта высокого качества.

Введение в слайдеры концепций

Как уже упоминалось ранее, текущие фреймворки диффузии текста в изображение часто испытывают трудности в контроле визуальных концепций и атрибутов в сгенерированных изображениях, что приводит к неудовлетворительным результатам. Более того, многие из этих моделей испытывают трудности с модуляцией непрерывных атрибутов, что также приводит к недостаточным результатам. Слайдеры концепций могут помочь смягчить эти проблемы, давая возможность контент-создателям и конечным пользователям более точно контролировать процесс генерации изображений и решать проблемы, с которыми сталкиваются текущие фреймворки.

Большинство текущих моделей диффузии текста в изображение полагаются на прямое изменение текстовых подсказок для управления атрибутами изображения. Хотя такой подход позволяет генерировать изображения, он не является оптимальным, так как изменение подсказки может резко изменить структуру изображения. Другой подход, используемый этими фреймворками, включает пост-методы, которые инвертируют процесс диффузии и изменяют взаимные внимания для редактирования визуальных концепций. Однако пост-методы имеют свои ограничения, они поддерживают только ограниченное количество одновременных редактирований и требуют отдельного вмешательства для каждого нового концепта. Кроме того, если не использовать аккуратно, они могут привести к понятийной запутанности.

В отличие от этого, слайдеры концепций предлагают более эффективное решение для генерации изображений. Эти легкие в использовании адаптеры могут быть применены к предварительно обученным моделям, повышая контроль и точность над желаемыми концепциями в одном вмешательстве с минимальной запутанностью. Слайдеры концепций также позволяют редактировать визуальные концепции, не охваченные текстовыми описаниями, что отличает их от методов редактирования на основе текстовых подсказок. Хотя методы на основе изображений могут эффективно добавлять токены для концепций на основе изображений, они сложно реализуются для редактирования изображений. Слайдеры концепций, с другой стороны, позволяют конечным пользователям предоставить небольшое количество сопоставленных изображений, определяющих желаемую концепцию. Затем слайдеры обобщают эту концепцию и автоматически применяют ее к другим изображениям, стремясь повысить реализм и исправить искажения, такие как на руках.

Слайдеры концепций стремятся учиться и решать типичные проблемы, свойственные четырем концепциям генеративного искусственного интеллекта и фреймворкам диффузии: редактирование изображений, методы на основе руководства, редактирование модели и семантические направления.

Редактирование изображений

Текущие фреймворки искусственного интеллекта либо сосредотачиваются на использовании условного ввода для направления структуры изображения, либо изменяют взаимное внимание исходного изображения с его целевой подсказкой для обеспечения редактирования одного изображения в моделях диффузии текста в изображение. В результате этих подходов они могут быть реализованы только на отдельных изображениях, а также требуют оптимизации латентных базисов для каждого изображения в результате изменения геометрической структуры во временных шагах между подсказками. 

Методы с руководством

Использование методов, основанных на руководстве без классификатора, показало свою способность улучшать качество сгенерированных изображений и повышать выравнивание текста и изображения. Включение руководящих терминов во время вмешательства улучшает ограниченную композицию, присущую фреймворкам диффузии, и их можно использовать для руководства небезопасными концепциями в фреймворках диффузии. 

Редактирование модели

Использование слайдеров концепции также может рассматриваться как техника редактирования модели, которая использует адаптер низкого ранга для вывода единого семантического атрибута, что позволяет осуществлять непрерывное управление, соответствующее атрибуту. Затем используются методы индивидуальной настройки, основанные на тонкой настройке, чтобы персонализировать фреймворк с добавлением новых концепций. Кроме того, метод Custom Diffusion предлагает способ тонкой настройки слоев перекрестного внимания для интеграции новых визуальных концепций в предварительно обученные модели диффузии. В свою очередь, метод Textual Diffusion предлагает оптимизировать вектор вложения для активации возможностей модели и внедрения текстовых концепций во фреймворк. 

Семантическое направление в GAN-моделях

Изменение семантических атрибутов является одним из ключевых атрибутов генеративно-состязательных сетей, при этом траектории скрытого пространства оказываются самоорганизованными. В моделях диффузии эти траектории в скрытом пространстве существуют в средних слоях архитектуры U-Net, и основное направление скрытого пространства в моделях диффузии захватывает глобальную семантику. Слайдеры концепций обучают подпространства низкого ранга, соответствующие особым атрибутам напрямую, и получают точные и локализованные направления редактирования с помощью текстовых или изображенчных пар для оптимизации глобальных направлений. 

Слайдеры концепций: архитектура и работа

Модели диффузии и адаптеры LoRA (Low Rank Adaptors)

Модели диффузии являются подклассом фреймворков генеративного искусственного интеллекта, которые работают на принципе синтеза данных путем обращения процесса диффузии. При прямом процессе диффузии изначально к данным добавляется шум, переводя их из организованного состояния в состояние полного гауссова шума. Основная цель моделей диффузии состоит в обратном процессе диффузии, постепенном удалении шума с изображения и генерации изображения, переводя случайный гауссов шум в изображение. В реальных приложениях основная задача фреймворков диффузии состоит в предсказании истинного шума, когда полный гауссов шум подается на вход с дополнительными входами, такими как фактор условия и временной шаг. 

Техника адаптеров низкого ранга LoRA разлагает обновления весов во время тонкой настройки, чтобы обеспечить эффективную адаптацию крупных предварительно обученных фреймворков для последующих задач. Техника LoRA разлагает обновления весов слоя предварительно обученной модели относительно как входных, так и выходных размерностей и ограничивает обновление до низкоразмерного подпространства. 

Слайдеры концепций

Основная цель слайдеров концепций – служить подходом к тонкой настройке адаптеров LoRA в диффузионном фреймворке, чтобы обеспечить более полный контроль над изображениями, нацеленными на конкретные концепции, и это демонстрируется на следующем изображении. 

Когда условием являются целевые концепции, слайдеры концепций обучают низкоранговые направления параметров для увеличения или уменьшения выражения конкретных атрибутов. Для модели и ее целевого концепта главная цель слайдеров концепций состоит в получении улучшенной модели, которая изменяет вероятность усиления и подавления атрибутов для изображения при условии целевого концепта, чтобы увеличить вероятность усиления атрибутов и уменьшить вероятность подавления атрибутов. С использованием репараметризации и формулы Твиди, фреймворк вводит временно изменяющийся процесс шума и выражает каждую оценку как прогноз денойзинга. Кроме того, цель дезентанглирования тонко настраивает модули слайдеров концепций, сохраняя прежние предварительно обученные веса, а коэффициент масштабирования, введенный во время формулировки LoRA, изменяется во время взаимодействия. Коэффициент масштабирования также облегчает настройку силы редактирования и делает редактирования более интенсивными без повторной тренировки фреймворка, как показано на следующем изображении. 

Методы редактирования, применяемые ранее в фреймворках, обеспечивали более сильные изменения путем повторной тренировки фреймворка с увеличенным руководством. Однако изменение коэффициента масштабирования во время взаимодействия производит те же результаты редактирования без увеличения стоимости и времени повторной тренировки. 

Изучение визуальных концепций

Слайдеры концепций разработаны таким образом, чтобы управлять визуальными концепциями, которые словесные подсказки не в состоянии хорошо определить, и эти слайдеры использовать небольшие наборы данных, которые либо сопоставлены до, либо после для обучения на этих концепциях. Конtrast между изображениями позволяет слайдерам изучить визуальные концепции. Кроме того, в процессе обучения слайдеров концепций оптимизируется компонент LoRA, реализованный в обоих направлениях (прямое и обратное). В результате компонент LoRA совмещается с направлением, вызывающим визуальные эффекты в обоих направлениях. 

Слайдеры концепции: результаты реализации

Для анализа прироста производительности разработчики оценили использование слайдеров концепции в основном на Stable Diffusion XL, фреймворке с высоким разрешением 1024 пикселя, с дополнительными экспериментами, проведенными на фреймворке Stable Diffusion v1.4 с обучением моделей для каждого из них в течение 500 эпох.

Текстовые слайдеры концепции

Для оценки производительности текстовых слайдеров концепции выполняется проверка на наборе из 30 текстовых концепций, и метод сравнивается с двумя базовыми линиями, которые используют стандартные текстовые подсказки на фиксированное количество шагов, а затем начинают композицию, добавляя подсказки для управления изображением. Как видно на следующей фигуре, использование слайдеров концепции приводит к постоянно более высокому показателю CLIP и постоянному снижению показателя LPIPS по сравнению с исходным фреймворком без слайдеров концепции.

Как видно на приведенной выше картинке, использование слайдеров концепции облегчает точное редактирование желаемых атрибутов в процессе генерации изображения, сохраняя при этом общую структуру изображения.

Визуальные слайдеры концепции

Модели диффузии текста в изображение, которые используют только текстовые подсказки, часто испытывают затруднения в поддержании более высокой степени контроля над визуальными атрибутами, такими как волосы на лице или форма глаз. Чтобы обеспечить лучший контроль над мелкими атрибутами, слайдеры концепции используют дополнительные текстовые указания, сопоставленные с наборами изображений. Как видно на рисунке ниже, слайдеры концепции создают отдельные слайдеры для “размера глаз” и “формы бровей”, захватывая желаемые преобразования с помощью пар изображений.

Результаты могут быть дополнительно уточнены путем указания конкретных текстов, таким образом, направление фокусируется на эту область лица и создает слайдеры с пошаговым управлением целевым атрибутом.

Создание слайдеров

Одним из главных преимуществ использования слайдеров концепции является их комбинируемость, которая позволяет пользователям объединять несколько слайдеров для более высокого уровня контроля, вместо акцентирования внимания только на одном концепте, что можно объяснить использованием направлений слайдеров низкого уровня, используемых в слайдерах концепции. Кроме того, поскольку слайдеры концепции являются легкими адаптерами LoRA, они легко передаются другим и могут быть легко наложены на модели диффузии. Пользователи также могут одновременно настраивать несколько регуляторов для управления сложными генерациями, загружая интересные наборы слайдеров.

Следующее изображение демонстрирует возможности композиции слайдеров концепции, и несколько слайдеров прогрессивно компонируются в каждой строке слева направо, что позволяет перемещаться по высокоразмерным концептам с более высокой степенью контроля над концептами.

Улучшение качества изображения

Хотя передовые фреймворки диффузии текста в изображение и масштабные генеративные модели, такие как модель Stable Diffusion XL, способны генерировать реалистичные и высококачественные изображения, они часто страдают от искажений, таких как размытые или скрученные объекты, даже если параметры этих передовых фреймворков обладают способностью генерировать высококачественный результат с меньшим количеством генераций. Использование слайдеров концепции может привести к генерации изображений с меньшими искажениями, разблокируя потенциал этих моделей путем определения направлений параметров низкого ранга.

Исправление рук

Создание изображений с реалистично выглядящими руками всегда было препятствием для рамочек диффузии, и использование слайдеров концепций напрямую контролирует тенденцию искажать руки. Ниже приведено изображение, демонстрирующее эффект использования слайдеров концепций “фиксация рук”, которые позволяют рамке генерировать изображения с более реалистично выглядящими руками.

Слайдеры восстановления

Использование слайдеров концепций может не только привести к созданию более реалистично выглядящих рук, но также показать их потенциал в улучшении общей реалистичности изображений, создаваемых рамкой. Слайдеры концепций также определяют однонаправленный параметр с низким рангом, что позволяет смещать изображения от общих проблем искажений, и результаты демонстрируются на следующем изображении.

Заключительные мысли

В этой статье мы говорили о слайдерах концепций, простой и масштабируемой новой парадигме, которая обеспечивает интерпретируемый контроль над производимым результатом в моделях диффузии. Использование слайдеров концепций стремится решить проблемы, с которыми сталкиваются текущие рамки диффузии текста в изображение, которым трудно поддерживать необходимый контроль над визуальными концепциями и атрибутами, включенными в создаваемое изображение, что часто приводит к недостаточно удовлетворительному результату. Более того, большинству моделей диффузии текста в изображение трудно модулировать непрерывные атрибуты в изображении, что часто приводит к недостаточно удовлетворительному результату. Использование слайдеров концепций может позволить рамкам диффузии текста в изображение устранить эти проблемы и дать создателям контента и конечным пользователям большую степень контроля над процессом генерации изображений, а также решить проблемы, с которыми сталкиваются текущие рамки.