Эта научная статья ИИ от университета Норт-Истерн и MIT предлагает метод интерпретируемых регуляторов концептов для улучшенного управления генерацией изображений в моделях диффузии.

Интерпретируемые регуляторы концептов научная статья от университета Норт-Истерн и MIT о методе для улучшения управления генерацией изображений в моделях диффузии.

Творческим пользователям моделей диффузионного преобразования текст-изображение обычно требуется более тонкое управление визуальными характеристиками и представлениями, которые в настоящее время не удается достичь. Сложно точно изменять непрерывные качества, такие как возраст человека или сила погоды, с помощью простых текстовых подсказок. Это ограничение затрудняет изменение изображений в соответствии с задумкой. В данном исследовании команда ученых из Университета Нортвестерн, Массачусетского технологического института и независимого исследователя отвечают на эти требования, представляя идею Интерпретируемых ползунков, позволяющих тонкое управление идеями внутри моделей диффузионного преобразования. Их подход обеспечивает художникам высококачественное управление редактированием и генерацией изображений. Команда исследователей предоставит свои подготовленные ползунки и код в открытом доступе. Концепция ползунков предлагает несколько решений проблем, с которыми должны справляться другие подходы.

Многие характеристики изображения могут быть прямо управляемыми путем изменения задачи, однако, поскольку результаты зависят от сочетания задачи и начальных условий, изменение задачи часто существенно изменяет общую структуру изображения. С использованием методов после обучения, таких как PromptToPrompt и Pix2Video, можно изменять взаимодействия между задачами и изменять процесс диффузии, чтобы изменить визуальные представления внутри изображения. Тем не менее, эти подходы могут поддерживать только небольшое количество одновременных изменений и требуют отдельного вывода для каждой новой идеи. Вместо обучения простого, обобщаемого управления, команда исследователей должна разработать задачу, подходящую для конкретного изображения. Неправильно сформулированная задача может привести к концептуальным запутанностям, например, изменению возраста при изменении расы.

С другой стороны, концепция ползунков предлагает простые, готовые адаптеры, которые являются легкими и могут быть применены к заранее обученным моделям. Это позволяет точное и непрерывное управление желаемыми концепциями в рамках одного вывода, с минимальными запутанностями и эффективной композицией. Каждый ползунок является модификацией модели диффузионного преобразования с низким рангом. Команда исследователей открывает, что ограничение низкого ранга является важным аспектом точного управления концепциями: обучение с низким рангом определяет минимальное пространство концепций и создает качественное, управляемое, распутанное редактирование, в то время как точность и качество генерации изображения уменьшаются при использовании оптимизации без низкоранговой регуляризации. Эта концепция низкого ранга не применима к методам постобработки изменения изображений, которые работают с индивидуальными фотографиями, а не с параметрами модели.

Концепция ползунков отличается от ранее использовавшихся методов редактирования концепции, которые полагались на текст, позволяя изменять визуальные концепции, не описываемые письменными описаниями. Техники настройки на основе изображений являются сложными для редактирования изображений, даже если команда исследователей может вводить новые токены для новых понятий, основанных на изображениях. С другой стороны, ползунок полезных идей позволяет художнику указать желаемую идею с помощью нескольких совмещенных фотографий. Затем ползунок концепции обобщает визуальную идею и применяет ее к другим изображениям, даже к тем, в которых невозможно описать изменение словами. (см. рисунок 1) Предыдущие исследования показали, что другие генеративные модели изображений, такие как GAN, содержат латентные области, которые предлагают высококонтролируемое редактирование выходов.

Рисунок 1 показывает, как техника находит направления низкого ранга в пространстве параметров диффузии для фокусированного управления идеями с минимальной помехой для других качеств при минимальной коллекции текстовых подсказок или совпадающих изображений. Эти направления комбинируются для сложного многокомпонентного управления и могут формироваться из пар противоположных текстовых идей или визуалов, созданных художниками. Перенос распутанных латентный факторов StyleGAN в модели диффузии и восстановление искаженных рук из выходных данных Stable Diffusion демонстрируют эффективность этого подхода исследователей.

В частности, показано, что нейроны stylespace StyleGAN обеспечивают тонкое управление несколькими значимыми характеристиками изображений, которые сложно передать словами. Команда исследователей показывает, что возможно создать ползунки полезных идей, которые переносят латентные направления из области стиля stylespace StyleGAN, обученной на фотографиях лиц FFHQ, в модели диффузионного преобразования, продемонстрировав дополнительный потенциал своего метода. Интересно, что их подход успешно адаптирует эти латентные факторы, чтобы обеспечить тонкое стилевое управление разнообразной производственной картиной, даже если она получена из набора данных лиц. Это демонстрирует, как диффузионные модели могут выражать сложные визуальные понятия в области латентных факторов GAN, даже тех, которые не имеют письменных описаний.

Исследователи показывают, что выразительность Concept Sliders достаточна для работы с двумя полезными приложениями: улучшение реализма и корректировка деформаций рук. Несмотря на то, что генеративные модели сделали большой шаг в направлении создания реалистичного синтеза изображений, самые последние модели диффузии, такие как Stable Diffusion XL, все еще подвержены созданию искаженных лиц, плавающих объектов и искаженной перспективы, а также искаженных рук с анатомически неправдоподобными дополнительными или отсутствующими пальцами. Команда исследователей подтверждает через перцептивное пользовательское исследование, что два Concept Sliders, один для “неподвижных рук” и другой для “реалистичного изображения”, приводят к статистически значимому повышению воспринимаемого реализма без изменения сути изображений.

Concept Sliders могут быть собраны и разобраны. Команда исследователей обнаружила, что создание более 50 различных слайдеров возможно без жертвования качеством вывода. Эта адаптируемость открывает новый мир тонкого контроля за изображениями для художников, позволяя им объединять множество текстовых, визуальных и определенных через глубокое обучение Concept Sliders. Их технология позволяет более сложное редактирование, чем простой текст может предоставить, так как она преодолевает обычные ограничения токенов подсказок.