МiniGPT-5 междисциплинарное поколение видеовосприятия и языка через генеративные вокены.

МиниGPT-5 генератор мультимедийного восприятия и языка нового поколения

За последние несколько лет большие языковые модели (LLM) привлекли внимание разработчиков искусственного интеллекта со всего мира благодаря прорывам в обработке естественного языка (NLP). Эти модели установили новые показатели в генерации и понимании текста. Однако, несмотря на прогресс в генерации текста, по-прежнему сложно создавать изображения, соответствующие текстовым описаниям. Чтобы решить эту проблему, разработчики представили инновационный подход к генерации изображений на основе “генеративных вокенов”, что позволяет добиться гармоничного сочетания текста и изображений.

Основой MiniGPT-5 является двухэтапная стратегия обучения, в которой основное внимание уделяется генерации мультимодальных данных без подробных описаний изображений. Кроме того, для повышения надежности модели в нее интегрирована система направляющих без использования классификатора, что позволяет улучшить эффективность создания изображений на основе вокенов. На начальном этапе MiniGPT-5 проявляет мощную производительность и существенное улучшение по сравнению с базовой моделью Divter, обученной на наборе данных MMDialog, а также постоянно демонстрирует способность создавать сравнимые или даже превосходящие мультимодальные выходы в человеческих оценках проведенных на наборе данных VIST, что подчеркивает его производительность и эффективность на разных этапах.

MiniGPT5: Введение

С недавними разработками фреймворков LLM и приложений на основе этих фреймворков, интеграция мультимедийных функций стала популярной, так как она играет важную роль в создании контента и мультимодальных диалоговых агентов. В результате постоянных исследований и разработок языковые и визуальные модели достигли такого уровня, что ведется работа над их способностью генерировать текстовые и визуальные данные в едином формате. Благодаря способности LLM генерировать мультимодальные данные, взаимодействие в различных областях, включая электронную коммерцию, медиа и виртуальную реальность, может быть улучшено.

В конечном итоге, цель заключается в том, чтобы модели могли синтезировать, распознавать и реагировать последовательно и логически, используя текстовые и визуальные модальности, что играет важную роль в гармонизации информационного потока и создании последовательных рассказов. Необходимость совмещения текстовых и визуальных модальностей вызвана прежде всего потребностью в более плавном, совмещенном и взаимодействующем мультимодальном взаимодействии в LLM, а также достижением чередующейся генерации языка и изображений. Однако, достижение совместного и взаимодействующего мультимодального взаимодействия в LLM является сложной задачей и сопряжено с множеством проблем, включая:

  1. В настоящее время LLM очень эффективны и мощны при генерации текста и обработке пар текст-изображение, но не обеспечивают удовлетворительную производительность при генерации изображений.
  2. Разработка таких моделей визии и языка в значительной степени зависит от данных, сфокусированных на конкретной теме, что усложняет их согласование с созданным текстом.
  3. Наконец, необходимо разработать более эффективные стратегии, поскольку с увеличением возможностей LLM также растут требования к памяти, особенно при выполнении последующих задач.

MiniGPT-5, использующий двухэтапный алгоритм генерации языка и изображений, предлагает новый подход к генерации мультимодальных данных, объединяя большие языковые модели с техниками Stable Diffusion при помощи специальных визуальных вокенов. Предложенный метод обучения, использованный MiniGPT-5, подчеркивает важность этапа базового обучения без описаний и подготовки модели для эффективной работы даже в условиях с ограниченными данными.

Однако то, что отличает модель MiniGPT-5 от существующих фреймворков, заключается в том, что обобщенные этапы фреймворка MiniGPT-5 не содержат специфичных для области аннотаций. Более того, чтобы обеспечить гармонию между сгенерированным текстом и соответствующими изображениями, фреймворк MiniGPT-5 развертывает стратегию с двойной потерей, что дополняет подход MiniGPT-5 по использованию направляющих без классификатора и генеративных вокенов. Фреймворк MiniGPT-5 оптимизирует эффективность обучения и решает ограничения памяти благодаря своей эффективной стратегии для точной настройки модели.

Для предоставления вам краткого обзора, фреймворк MiniGPT-5

  1. Предлагает метод, который использует мультимодальные кодировщики, представляющие новый и общий метод, который исторически доказал свою более эффективность по сравнению с традиционными LLMs, и использует генеративные токены, объединенные с Техниками устойчивой диффузии, для генерации взаимопереплетенных языковых и визуальных результатов.
  2. Предлагает стратегию двух этапов для генерации мультимодальных выводов без описания и включение обучения без использования классификатора для дальнейшей улучшения качества сгенерированных данных.

Модель MiniGPT-5 в значительной степени вдохновлена предыдущими исследованиями и работой в области

  • Генерация текста изображений : Для облегчения преобразования текстовых описаний в соответствующие визуальные представления и модели текста в изображения.
  • MLLMs или Multimodal Large Language Models : Использование предварительно обученных моделей LLM для исследования их применений и эффективности в генерации мультимодальных данных.
  • Мультимодальная генерация с помощью больших языковых моделей : Для расширения возможностей LLM по бесшовной интеграции генерации языковых и визуальных данных.

MiniGPT-5 : Метод, Архитектура и Фреймворк

Чтобы предоставить большим языковым моделям возможности генерации мультимодальных данных, модель MiniGPT-5 предлагает фреймворк, который объединяет модели генерации текста в изображения и предварительно обученные мультимодальные большие языковые модели. Фреймворк MiniGPT-5 также вводит “генеративные токены”, специальные визуальные токены, которые позволяют разработчикам решать проблемы, связанные с различиями в разных областях, тренируя модель напрямую на сырых изображениях. Для дальнейшего улучшения качества мультимодальных данных, генерируемых LLMs, фреймворк MiniGPT-5 вводит стратегию без использования классификатора в сочетании с продвинутый методом двухэтапного обучения. Давайте подробнее рассмотрим фреймворк MiniGPT-5.

Мультимодальный входной этап

Разработки LLMs в последнее время позволили раскрыть их мультимодальные способности в понимании, позволяя обрабатывать изображения как последовательный вход. Фреймворк MiniGPT-5 использует специально разработанные генеративные токены для вывода визуальных особенностей с целью расширения мультимодальных способностей LLMs до генерации мультимодальных данных. Кроме того, фреймворк MiniGPT-5 использует эффективные параметрические техники для тонкой настройки с целью обучения LLM на мультимодальный вывод.

Мультимодальное кодирование

Предварительно обученный визуальный кодировщик в фреймворке MiniGPT-5 преобразует каждое входное изображение в особенность, а каждый текстовый токен встроен в виде вектора, а входные характеристики вводного текста генерируются, когда эти векторы объединяются друг с другом.

Добавление генеративных токенов в большие языковые модели

Традиционно, словарь больших языковых моделей состоит только из текстовых токенов, поэтому разработчикам, работающим над фреймворком MiniGPT-5, пришлось преодолеть разрыв между генеративной и традиционными LLMs. Фреймворк MiniGPT-5 вводит набор специальных токенов в качестве генеративных токенов в словарь LLM. Затем фреймворк использует скрытое состояние генеративных токенов LLM для последующей генерации изображений, а позиция вставленных изображений представлена позицией генеративных токенов.

PEFT или параметрическая эффективная тонкая настройка

PEFT или параметрическая эффективная тонкая настройка – это важное понятие, используемое для обучения LLMs, однако применение PEFT в мультимодальных условиях до сих пор мало исследовано. Фреймворк MiniGPT-5 использует параметрическую технику эффективной тонкой настройки в отношении кодировщика фреймворка MiniGPT-4, чтобы обучить модель лучше понимать подсказки или инструкции, а также улучшить общую производительность модели в нулевом режиме или в новых средах.

Мультимодальная генерация вывода

Для точного соответствия генеративной модели генеративным токенам, фреймворк MiniGPT-5 формулирует компактный модуль сопоставления размерностей и включает учебные потери, включая потери параметров диффузии и потери в пространстве текста. Потери параметров диффузии обеспечивают соответствующие визуальные особенности токенов, а потери в пространстве текста помогают модели узнать правильные позиции токенов. Поскольку генеративные токены в фреймворке MiniGPT-5 напрямую управляются изображениями, данный фреймворк не требует наличия подробного описания изображений, что позволяет модели учиться без ограничений описания.

 Генерация пространства текста

Фреймворк MiniGPT-5 следует методу моделирования неформального языка для совместной генерации как вокенов, так и текстов в текстовом пространстве. Во время обучения разработчики добавляют вокены к позиции изображений настоящего положения и обучают модель предсказывать вокены при генерации текста.

Сопоставление вокенов с признаками для генерации изображения

После создания текстового пространства фреймворк выравнивает скрытое состояние вывода с условным пространством признаков текста для модели генерации текста в изображение. Фреймворк также поддерживает модуль сопоставления признаков, который включает MLP-модель с двумя слоями, обучаемую последовательность декодировщика признаков и модель трансформатора с четырьмя слоями кодировщика-декодировщика.

Генерация изображения с помощью LDM или модели латентной диффузии

Для генерации требуемых изображений в процессе устранения шума фреймворк использует признаки сопоставления в качестве условного ввода. Фреймворк также использует модель LDM или модель латентной диффузии в качестве руководства, так как во время тренировки исходное изображение сначала преобразуется в латентный признак с помощью предварительно обученного VAE, после чего разработчики получают латентный шумовой признак, добавляя некоторый шум.

Комплексный подход, использованный фреймворком MiniGPT-5, позволяет разработчикам иметь последовательное понимание и генерацию как визуальных, так и текстовых элементов с использованием специализированных вокенов, используя возможности предварительно обученных моделей и инновационные методики обучения.

MiniGPT-5: Обучение и результаты

При работе с фреймворком MiniGPT-5 разработчики обнаружили, что обучение на ограниченном междисциплинарном наборе данных изображений и текста может привести к ухудшению качества изображений и недостаточной выравниваемости из-за значительного сдвига между доменами изображений и текста. Чтобы устранить эту проблему, разработчики применили две различные стратегии обучения,

  1. Включение техник руководства без классификатора, которые повышают эффективность генеративных вокенов во время процесса выравнивания.
  2. Вторая стратегия разделена на два этапа:
    1. Исходный этап предварительного обучения, который фокусируется преимущественно на выравнивании грубых признаков.
    2. Этап настройки, который облегчает обучение признакам.

CFG или руководство без классификатора

Идея первоначального использования CFG для многомодальной генерации возникла как попытка улучшить согласованность и логику между сгенерированными изображениями и текстами, а CFG вводится во время процесса диффузии от текста к изображению. Этот метод показывает, что обучение как безусловной, так и условной генерации с использованием условного отбрасывания позволяет генеративной модели достигать улучшенных условных результатов.

Стратегия двух этапов обучения

Учитывая значительный сдвиг между генерацией текста-изображения и чистой генерацией текста, фреймворк MiniGPT-5 использует стратегию из двух этапов для обучения.

  1. Одномодальный этап выравнивания или ЭВ,
  2. Многомодальный этап обучения или ЭМО.

Сначала фреймворк выравнивает признаки генерации изображений с вокен-признаком в наборах данных, содержащих только один текст и только одно изображение, причем текстом обычно является подпись к изображению. На этом этапе фреймворк позволяет LLM генерировать вокены, используя подписи в качестве входных данных LLM.

После успешного выполнения ЭВ модель может генерировать изображения для одиночных текстовых описаний, но испытывает трудности с перемежаемой генерацией языка и видения, включая пары текст-изображение, для чего требуется сложное рассуждение для генерации изображений и текстов. Для преодоления этого препятствия разработчики дополнительно настроили фреймворк MiniGPT-5, используя параметры PEFT с помощью перемежаемых наборов данных видение-язык, таких как VIST. На этом этапе фреймворк создает три разные задачи на основе набора данных:

  1. Генерация только текста: генерирует связанный текст на основе следующего изображения.
  2. Генерация только изображения: генерирует связанное изображение на основе следующего текста.
  3. Многомодальная генерация: генерирует пары текст-изображение с использованием заданного контекста.

MiniGPT-5: результаты и показатели

Чтобы всесторонне оценить его производительность в многомодальной генерации, команда разработчиков MiniGPT-5 сравнила его производительность с другими ведущими базовыми моделями, включая Divter, GILL и Файн-тюнед Унимодал Генерейшн Модел, сравнение представлено в таблице ниже.

Фреймворк MiniGPT-5 понимает, что мультимодальный вывод может иметь смысл в контексте, но он может отличаться от реальности, что является основной причиной включения человеческих входных данных в оценку и оценку работы модели MiniGPT-5. В целом, эффективность фреймворка MiniGPT-5 для мультимодальных задач оценивается с использованием трех точек зрения.

  1. Языковая непрерывность: оценка того, насколько создаваемый контент гармонично соответствует предоставленному контексту.
  2. Качество изображения: оценка или оценка соответствия и ясности созданного изображения.
  3. Мультимодальная связность: определение, насколько сочетание текстового и графического вывода согласуется с исходным контекстом.

Оценка финального этапа VIST

На первом этапе экспериментов фреймворк MiniGPT-5 стремится создать соответствующие изображения, и таблица ниже содержит сводку полученных результатов в данной конфигурации.

Как видно из таблицы, фреймворк MiniGPT-5 во всех трех настройках может превзойти настроенную модель SD2, что подчеркивает эффективность конвейера MiniGPT-5.

На приведенной выше диаграмме сравнивается производительность фреймворка MiniGPT-5 с настроенной моделью MiniGPT-4 по метрикам производительности S-BERT, Rouge-L и Meteor. Результаты показывают, что использование генеративных вокенов не отрицательно влияет на производительность фреймворка при выполнении мультимодальных задач по пониманию. Результаты также демонстрируют, что фреймворк MiniGPT-5 способен использовать длинные горизонтальные мультимодальные входные подсказки на широком спектре данных для создания высококачественных и логичных изображений, не подвергая компромиссу возможности оригинальной модели в мультимодальном понимании.

Таблица выше сравнивает производительность трех фреймворков на 5000 образцах мультимодальной генерации по метрикам мультимодальной связности, качества изображения и языковой непрерывности. Как можно видеть, фреймворк MiniGPT-5 превосходит две другие базовые модели более чем в 70% случаев. С другой стороны, таблица ниже демонстрирует производительность фреймворка MiniGPT-5 на проверочном наборе данных CC3M для генерации отдельных изображений. Из-за ограничений данных разработчики обнаружили проблемы с выравниванием вокенов при использовании Stable Diffusion. Несмотря на это ограничение, фреймворк MiniGPT-5 превосходит современную базовую модель GILL во всех метриках.

Заключение

В этой статье мы говорили о MiniGPT-5, методе интерликированного генерирования языковых и визуальных данных, который вводит концепцию “генеративных вокенов” в попытке использовать возможности LLM для генерации мультимодальных данных, выстраивая связь между большой языковой моделью и моделью генерации текста в изображениях, предварительно обученной. Мы говорили о ключевых компонентах и общей архитектуре фреймворка MiniGPT-5, а также о результатах, которые показывают существенные улучшения в производительности и эффективности по сравнению с существующими базовыми моделями и современными моделями. MiniGPT-5 стремится установить новую точку отсчета в области мультимодального контента и генерации данных, а также стремится решить проблемы, с которыми сталкивались предыдущие модели при решении той же проблемы.