Генерация информационно насыщенного текста для сильного перекрестного модального интерфейса в LLM с дефузией

Создание текста с большим объемом информации для эффективного кросс-модального интерфейса в LLM с дефузией

Глобальное явление продуктов LLM (Large Language Model), наиболее ярким примером которых является широкое принятие ChatGPT, получило значительное внимание. Многие люди пришли к согласию относительно преимуществ LLM в восприятии разговоров на естественном языке и помощи людям в креативных задачах. Тем не менее, возникает следующий вопрос: что нас ожидает в развитии этих технологий?

Заметный тренд указывает на переход к мультимодальности, позволяющей моделям понимать различные модальности, такие как изображения, видео и аудио. Недавно была представлена GPT-4, мультимодальная модель с замечательными возможностями понимания изображений, сопровождаемая возможностями обработки аудио.

С момента появления глубокого обучения кросс-модальные интерфейсы часто основывались на глубоком обобщении информации. Эти обобщения проявляют свою эффективность в сохранении пикселей изображений при обучении в качестве автокодировщиков и могут достигать семантической осмысленности, как демонстрируют последние модели, такие как CLIP. Рассматривая отношение между речью и текстом, естественное понимание кросс-модального интерфейса заключается в том, что текст часто играет роль понятного моста. Преобразование речевого аудио в текст эффективно сохраняет содержание, позволяя восстановить речевое аудио с помощью зарекомендовавших себя техник синтеза речи из текста. Кроме того, считается, что переведенный текст содержит всю необходимую семантическую информацию. Если провести аналогию, мы также можем «перевести» изображение в текст, процесс, который часто называется описанием изображения. Однако типичные описания изображений не справляются с сохранением контента, акцентируя внимание на точности в ущерб всесторонней освещенности. Описания изображений не всегда эффективно отвечают на широкий спектр визуальных вопросов.

Несмотря на ограничения описаний изображений, точный и всесторонний текст, если он достижим, остается многообещающей опцией, как с точки зрения интуитивности, так и с практической точки зрения. С практической точки зрения, текст служит в качестве родной области ввода для LLM. Использование текста устраняет необходимость в адаптивном обучении, которое часто связано с глубокими обобщениями. Учитывая высокую стоимость обучения и адаптации лучших LLM, модульная структура текста открывает больше возможностей. Так как мы можем достичь точного и всестороннего текстового представления изображений? Решение заключается в прибегании к классической технике автокодировки.

В отличие от обычных автокодировщиков, используемый подход предполагает использование предварительно обученной модели диффузии текста в изображение в качестве декодера с текстом в качестве естественного скрытого пространства. Энкодер обучен преобразовывать входное изображение в текст, который затем вводится в модель диффузии текста в изображение для декодирования. Целью является минимизация ошибки реконструкции, требующая, чтобы скрытый текст был точным и всесторонним, даже если он часто комбинирует семантические понятия в «скремблированный заголовок» входного изображения.

Недавние успехи в генерации моделей текст в изображение демонстрируют исключительную способность преобразовывать сложный текст, состоящий даже из нескольких десятков слов, в высокодетализированные изображения, гармонирующие с заданными подсказками. Это подчеркивает способность этих генеративных моделей обрабатывать сложный текст в визуально связанные выводы. Включая одну из таких генеративных моделей текста в изображение в качестве декодера, оптимизированный энкодер исследует обширное скрытое пространство текста, раскрывая обширные визуально-языковые знания, содержащиеся в генеративной модели.

Подтверждая эти находки, исследователи разработали De-Diffusion – автокодировщик, использующий текст в качестве надежного кросс-модального интерфейса. Обзор его архитектуры показан ниже.

De-Diffusion включает в себя энкодер и декодер. Энкодер обучен преобразовывать входное изображение в описательный текст, который затем подается на фиксированный предварительно обученный декодер диффузии текста в изображение для восстановления исходного ввода.

Эксперименты с предложенным методом показывают, что сгенерированный De-Diffusion текст ловко улавливает семантические концепции на изображениях, позволяя разнообразные видео-языковые приложения при использовании в качестве текстовых подсказок. De-Diffusion текст демонстрирует обобщаемость в качестве переносимой подсказки для различных инструментов преобразования текста в изображение. Количественная оценка с использованием FID реконструкции показывает, что De-Diffusion текст значительно превосходит подписи, созданные людьми, как подсказки для сторонней модели преобразования текста в изображение. Кроме того, De-Diffusion текст облегчает использование открытых LLM для выполнения задач видео-языкового взаимодействия, подавая на вход несколько примеров для выполнения задачи. Эти результаты кажутся демонстрацией того, что De-Diffusion текст эффективно связывает человеческие интерпретации и различные модели взаимодействия между различными областями.

Это было краткое изложение De-Diffusion – новой техники искусственного интеллекта для преобразования изображения в текст, содержащий множество информации, который может выступать в качестве гибкого интерфейса между различными модальностями и обеспечивать разнообразные приложения в области звука, видео и языка. Если вас интересует это и вы хотите узнать больше, пожалуйста, ознакомьтесь со ссылками, указанными ниже.