Новое исследование по искусственному интеллекту из Тель-Авива и Копенгагенского университета представляет подключи и работай подход для быстрой настройки моделей диффузии текста в изображение с использованием дискриминативного сигнала.

'A new study on artificial intelligence from Tel Aviv and Copenhagen University presents a plug-and-play approach for rapid configuration of text diffusion models into images using a discriminative signal.

Модели диффузии текст-изображение проявляют впечатляющий успех в генерации разнообразных и высококачественных изображений на основе текстовых описаний. Тем не менее, они сталкиваются с проблемами, когда входной текст является лексически неоднозначным или содержит сложные детали. Это может привести к ситуациям, когда предполагаемое содержание изображения, такое как “утюг” для одежды, неправильно представлено как “элемент” металла.

Для решения этих ограничений существующие методы используют предварительно обученные классификаторы для направления процесса удаления шумов. Один из подходов заключается в смешивании оценки оценки модели диффузии с градиентом логарифма вероятности классификатора на предварительно обученном классификаторе. Проще говоря, этот подход использует информацию как от модели диффузии, так и от предварительно обученного классификатора для генерации изображений, которые соответствуют желаемому результату и соответствуют суждению классификатора о том, что изображение должно представлять.

Однако, для этого метода требуется классификатор, способный работать с реальными и зашумленными данными.

Другие стратегии условили процесс диффузии по классам, используя определенные наборы данных. Хотя эти подходы эффективны, они далеки от полной экспрессивной способности моделей, обученных на обширных коллекциях пар изображений и текста из сети.

Альтернативное направление заключается в настройке модели диффузии или некоторых ее входных токенов с использованием небольшого набора изображений, связанных с определенным концептом или меткой. Однако этот подход имеет недостатки, включая медленное обучение для новых концепций, возможные изменения в распределении изображений и ограниченное разнообразие, полученное из небольшой группы изображений.

В этой статье предлагается подход, который решает эти проблемы, обеспечивая более точное представление желаемых классов, разрешая лексическую неоднозначность и улучшая изображение деталей высокой степени детализации. При этом не нарушается выразительная способность исходной предварительно обученной модели диффузии и не возникают упомянутые недостатки. Обзор этого метода иллюстрируется на рисунке ниже.

Вместо направления процесса диффузии или изменения всей модели, этот подход сосредотачивается на обновлении представления единственного добавленного токена, соответствующего каждому интересующему классу. Важно отметить, что это обновление не включает настройку модели на размеченных изображениях.

Метод изучает представление токена для конкретного целевого класса через итеративный процесс генерации новых изображений с более высокой вероятностью класса в соответствии с предварительно обученным классификатором. Обратная связь от классификатора направляет эволюцию назначенного классового токена на каждой итерации. Для этого используется новая техника оптимизации, называемая пропуском градиента, при которой градиент передается только через конечную стадию процесса диффузии. Оптимизированный токен затем включается в составляющую текстового входа для генерации изображений с использованием исходной модели диффузии.

По мнению авторов, этот метод имеет несколько ключевых преимуществ. Он требует только предварительно обученного классификатора и не требует отдельно обученного классификатора на зашумленных данных, что отличает его от других техник условного класса. Более того, он отличается скоростью, позволяя немедленно улучшать генерируемые изображения, как только токен класса обучен, в отличие от более затратных по времени методов.

Приведены примеры результатов, выбранные из исследования, на рисунке ниже. Эти кейс-стади представляют собой сравнительный обзор предложенных и передовых подходов.

Это был краткий обзор новой неинвазивной техники искусственного интеллекта, которая использует предварительно обученный классификатор для настройки моделей распределения текста на изображение. Если вас заинтересовало и вы хотите узнать больше, пожалуйста, обратитесь к ссылкам, указанным ниже.