Познакомьтесь с DreamSync новая платформа искусственного интеллекта для улучшения синтеза текста в изображение (T2I) с обратной связью от моделей понимания изображений.

Ознакомьтесь с DreamSync новая платформа искусственного интеллекта для улучшения синтеза текста в изображение (T2I) с обратной связью от моделей понимания изображений

Исследователи из Университета Южной Калифорнии, Университета Вашингтона, Университета Бар-Илана и Google Research представили DreamSync, который решает проблему улучшения выравнивания и эстетического воздействия в моделях T2I (текст-изображение), основанных на диффузии, без необходимости человеческой аннотации, модификаций архитектуры модели или обучения с подкреплением. Это достигается путем генерирования кандидатских изображений, их оценки с помощью моделей визуального вопроса и ответа (VQA) и настройки модели текст-изображение.

Предыдущие исследования предложили использовать модели VQA, такие как TIFA, для оценки генерации T2I. TIFA с 4K подсказками и 25K вопросами облегчает оценку по 12 категориям. Методы, такие как SeeTrue и методы обучения, например RLHF и адаптеры обучения, решают проблему выравнивания T2I. Методы без обучения, например SynGen и StructuralDiffusion, настраивают вывод для выравнивания.

DreamSync решает проблемы в моделях T2I, улучшая приверженность намерениям пользователя и эстетического воздействия без необходимости определенной архитектуры или помеченных данных. Он представляет собой модельно-независимую структуру, использующую модели визуального языка (VLM) для определения расхождений между сгенерированными изображениями и входным текстом. Метод включает разработку нескольких кандидатских изображений, их оценку с помощью VLM и настройку модели T2I. DreamSync предлагает улучшенное выравнивание изображения, превосходящее базовые методы, и способен улучшать различные характеристики изображения, расширяя свою применимость за пределы улучшения выравнивания.

DreamSync использует модельно-независимую структуру для выравнивания генерации T2I с обратной связью от VLM. Процесс включает генерацию нескольких кандидатских изображений по подсказке и их оценку на достоверность текста и эстетическое воздействие, используя две специальные модели VLM. Выбранное лучшее изображение, определенное обратной связью от VLM, используется для настройки модели T2I, итерацию повторяют до сходимости. Также вводится итеративное бутстрапирование, используя VLM как модели-учителя для пометки непомеченных данных для обучения модели T2I.

DreamSync улучшает модели T2I SDXL и SD v1.4, применение трех итераций SDXL приводит к улучшению степени приверженности на 1,7 и 3,7 балла на TIFA. Визуальное эстетическое воздействие также повысилось на 3,4 балла. Применение DreamSync к SD v1.4 приводит к повышению достоверности на 1,0 балла и увеличению абсолютного рейтинга на 1,7 балла на TIFA, а эстетика повышается на 0,3 балла. В сравнительном исследовании DreamSync превосходит SDXL в выравнивании, производя изображения с более соответствующими компонентами и на 3,4 более правильных ответов. Он достигает превосходной текстовой достоверности, не ущемляя визуального вида на TIFA и DSG, показывая постепенное улучшение в ходе итераций.

В заключение, DreamSync – это универсальная структура, оцененная на сложных бенчмарках T2I, демонстрирующая значительные улучшения в выравнивании и визуальном воздействии в пределах как внутренних, так и внешних сред. Структура включает двойную обратную связь от моделей визуально-языковых моделей и была проверена на человеческие оценки и модель предсказания предпочтений.

В дальнейшем усовершенствованием DreamSync является опора обратной связи с подробной аннотацией, такой как ограничительные рамки для идентификации неправильных выравниваний. На каждой итерации целью является настройка подсказок для достижения конкретных улучшений в синтезе текста-изображения. Исследование лингвистической структуры и карт внимания направлено на повышение связи атрибут-объект. Обучение моделей наград с помощью обратной связи от людей может дальше выравнивать генерируемые изображения с намерениями пользователя. Расширение применения DreamSync к другим моделям архитектур, оценка производительности и дополнительные исследования в различных средах являются предметом текущих исследований.