Понимают ли друг друга Flamingo и DALL-E? Исследование симбиоза между моделями подписывания изображений и синтеза текста в изображение

Understanding the symbiosis between Flamingo and DALL-E Research on image captioning and text synthesis in images

Мультимодальные исследования, улучшающие компьютерное понимание текста и визуальных изображений, недавно сделали значительные успехи. Сложные вербальные описания из реального мира могут быть преобразованы в высококачественные визуальные изображения с использованием моделей генерации текста в изображение, таких как DALL-E и Stable Diffusion (SD). С другой стороны, модели генерации изображения в текст, такие как Flamingo и BLIP, демонстрируют способность понимать сложную семантику, присутствующую на изображениях, и предоставлять связные описания. Несмотря на близость задач генерации текста в изображение и описания изображения, они часто исследуются независимо друг от друга, что означает необходимость исследования взаимодействия между этими моделями. Интригующим вопросом является то, могут ли модели генерации текста в изображение и модели генерации изображения в текст понимать друг друга.

Для решения этой проблемы они используют модель генерации текста в изображение, называемую BLIP, для создания текстового описания для определенного изображения. Затем это текстовое описание подается на вход модели генерации текста в изображение с названием SD, которая создает новое изображение. Они утверждают, что BLIP и SD могут взаимодействовать, если созданное изображение похоже на исходное изображение. Общее понимание каждой стороной может улучшить понимание базовых идей и привести к лучшему созданию описаний и синтезу изображений. Эта концепция показана на рисунке 1, где верхнее описание приводит к более точной реконструкции исходного изображения и лучше представляет входное изображение, чем нижнее описание.

https://arxiv.org/abs/2212.12249

Исследователи из Мюнхенского университета Людвига и Максимилиана, компании Siemens AG и Оксфордского университета разрабатывают задачу реконструкции, в которой DALL-E синтезирует новое изображение, используя описание, которое Flamingo создает для заданного изображения. Они создают две задачи реконструкции: текст-изображение-текст и изображение-текст-изображение, чтобы проверить это предположение (см. рисунок 1). Для первой задачи реконструкции они вычисляют расстояние между признаками изображения, извлеченными с использованием предварительно обученного кодировщика изображений CLIP, чтобы определить, насколько похожи семантика реконструированного изображения и исходного изображения. Затем они сравнивают качество созданного текста с аннотированными человеком подписями. Их исследование показывает, что качество созданного текста влияет на то, насколько хорошо выполняется реконструкция. Это приводит к их первому открытию: описание, которое позволяет генеративной модели восстановить исходное изображение, является наилучшим описанием для изображения.

Аналогично они создают обратную задачу, где SD создает изображение на основе текстового ввода, а затем BLIP создает текст на основе созданного изображения. Они обнаруживают, что изображение, которое породило исходный текст, является наилучшим иллюстрацией для текста. Они предполагают, что информация из исходного изображения точно сохраняется в текстовом описании в процессе реконструкции. Это значимое описание приводит к точному восстановлению обратно к модальности изображения. Их исследование предлагает уникальную рамку для донастройки, которая упрощает взаимодействие моделей генерации текста в изображение и генерации изображения в текст.

Более конкретно, в их парадигме генеративная модель получает сигналы обучения от потери реконструкции и информации от человеческих ярлыков. Одна модель сначала создает представление ввода для конкретного изображения или текста в другой модальности, а другая модель переводит это представление обратно в исходную модальность. Компонент реконструкции создает потерю регуляризации для направления донастройки начальной модели. Они получают самонаблюдение и человеческий надзор таким образом, повышая вероятность того, что генерация приведет к более точной реконструкции. Например, модели подписей к изображениям необходимо предпочитать подписи, которые соответствуют не только помеченным парам изображение-текст, но и тем, которые могут привести к надежным реконструкциям.

Взаимодействие между агентами тесно связано с их задачей. Основной способ обмена информацией между агентами – это язык. Но как можно быть уверенным, что у первого и второго агента одинаковое понимание того, что такое кошка или собака? В этом исследовании они просят первого агента рассмотреть изображение и создать предложение, которое его описывает. Получив текст, второй агент моделирует изображение на его основе. Вторая фаза – это процесс воплощения. Согласно их гипотезе, коммуникация эффективна, если моделирование второго агента входного изображения близко к изображению, полученному первым агентом. В сущности, они оценивают полезность языка, который служит основным средством коммуникации для людей. В частности, в их исследовании используются недавно установленные предварительно обученные модели подписей к изображениям большого масштаба и модели для генерации изображений. Несколько исследований подтвердили преимущества их предложенной рамки для различных генеративных моделей как в условиях обучения без обучающей выборки, так и в ситуациях донастройки. В частности, их подход значительно улучшил создание подписей и изображений в условиях обучения без обучающей выборки, а для донастройки они получили лучшие результаты для обеих генеративных моделей.

Вот краткое изложение их основных вкладов:

• Фреймворк: По их лучшему пониманию, они первые исследовали, как обычные генеративные модели изображений в текст и текст в изображения могут быть переданы с помощью понятных текстовых и графических представлений. В отличие от этого, аналогичные работы неявно интегрируют создание текста и изображения через вложенное пространство.

• Выводы: Они обнаружили, что оценка восстановления изображения, созданного моделью изображений в текст, может помочь определить, насколько хорошо написан подпись. Подпись, которая обеспечивает наиболее точное восстановление исходного изображения, должна использоваться для этого изображения. Аналогично, лучшее изображение подписи – это то, которое позволяет наиболее точно восстановить исходный текст.

• Улучшения: Исходя из своих исследований, они разработали всесторонний фреймворк для улучшения моделей текст в изображение и изображение в текст. Потери восстановления, рассчитанные моделью изображения в текст, будут использоваться в качестве регуляризации для точной настройки модели текст в изображение, и потери восстановления, рассчитанные моделью текст в изображение, будут использоваться для точной настройки модели изображение в текст. Они исследовали и подтвердили жизнеспособность своего подхода.