Salesforce AI представляет GlueGen революционизация моделей текст-в-изображение с эффективными модификациями кодера и мультимодальными возможностями

Salesforce AI представляет GlueGen революционное обновление моделей текст-в-изображение с улучшенным кодировщиком и мультимодальными возможностями

В быстро меняющемся мире моделей преобразования текста в изображение (T2I) возникает новая граница с появлением GlueGen. Модели T2I продемонстрировали впечатляющие возможности в генерации изображений по описаниям текста, но их жесткость в отношении модификации или расширения функционала стало значительным вызовом. GlueGen стремится изменить эту парадигму, сопоставляя одноканальные или многоканальные кодеры существующим моделям T2I. Этот подход исследователей из Университета Нортвестерн, Научно-исследовательского центра Salesforce AI и Стэнфордского университета упрощает обновления и расширения и открывает новую эру поддержки мультиязыковости, генерации изображений на основе звука и улучшенного кодирования текста. В этой статье мы рассмотрим трансформационный потенциал GlueGen, изучая его роль в продвижении генерации X-в-изображение (X2I).

Существующие методы генерации T2I, особенно те, которые основаны на диффузионных процессах, продемонстрировали значительный успех в генерации изображений на основе предоставленных пользователями подписей. Однако эти модели страдают от проблемы тесной связи между кодировщиками текста и декодерами изображений, что делает модификации или обновления неудобными. Некоторые ссылки на другие подходы T2I включают методы, основанные на GAN, такие как Generative Adversarial Nets (GAN), Stack-GAN, Attn-GAN, SD-GAN, DM-GAN, DF-GAN, LAFITE, а также авторегрессионные модели-трансформаторы, такие как DALL-E и CogView. Кроме того, для генерации изображений в этой области использовались модели диффузии, такие как GLIDE, DALL-E 2 и Imagen.

Генеративные модели T2I значительно продвинулись благодаря улучшению алгоритмов и обширным обучающим данным. Модели T2I на основе диффузии отличаются качеством изображений, но страдают от недостаточной управляемости и композиции, что часто требует оперативной настройки для достижения желаемых результатов. Еще одним ограничением является главным образом тренировка на английских текстовых подписях, ограничивая их многоязыковую эффективность.

Фреймворк GlueGen представляет GlueNet для сопоставления признаков из различных одноканальных или многоканальных кодеров с латентным пространством существующей модели T2I. Их подход использует новую целевую функцию обучения, которая использует параллельные корпуса для сопоставления пространств представлений разных кодеров. Возможности GlueGen расширяются до сопоставления многоязыковых языковых моделей, таких как XLM-Roberta, с моделями T2I, обеспечивая генерацию высококачественных изображений на основе неанглоязычных подписей. Кроме того, она может соотносить многоканальные кодеры, такие как AudioCLIP, с моделью Stable Diffusion, обеспечивая генерацию звука в изображение.

GlueGen предлагает возможность сопоставления разнообразных признаковых представлений, обеспечивая плавное интегрирование нового функционала в существующие модели T2I. Она достигает этого путем сопоставления многоязыковых языковых моделей, таких как XLM-Roberta, с моделями T2I для генерации высококачественных изображений на основе неанглоязычных подписей. Кроме того, GlueGen сопоставляет многоканальные кодеры, такие как AudioCLIP, с моделью Stable Diffusion, позволяя генерировать изображения из звука. Этот метод также повышает стабильность и точность изображения по сравнению с обычным GlueNet благодаря его технике перераспределения целевой функции. Оценка производится с использованием FID-значений и пользовательских исследований.

В заключение, GlueGen предлагает решение для сопоставления различных признаковых представлений, повышая адаптируемость существующих моделей T2I. Сопоставляя многоязыковые языковые модели и многоканальные кодеры, она расширяет возможности моделей T2I в генерации высококачественных изображений из различных источников. Эффективность GlueGen демонстрируется через улучшение стабильности и точности изображения с помощью предложенной техники перераспределения целевой функции. Кроме того, она решает проблему тесной связи между кодировщиками текста и декодерами изображений в моделях T2I, открывая путь для более простых обновлений и замен. В целом, GlueGen представляет собой многообещающий подход для продвижения функциональности генерации X-в-изображение.