Проложение пути в совместном генерировании зрительных и языковых данных раскрытие силы генеративных вокенов с помощью MiniGPT-5

Открываем силу генеративных вокенов с помощью MiniGPT-5 путь к совместной генерации зрительных и языковых данных

Большие языковые модели отличаются в понимании и генерации человеческого языка. Эта способность критически важна для таких задач, как резюмирование текста, анализ настроений, перевод и чат-боты, делая их ценными инструментами для обработки естественного языка. Эти модели могут улучшить системы машинного перевода, обеспечивая более точные и контекстно осознанные переводы между разными языками с множеством глобальных коммуникационных и бизнес-приложений.

LLM успешно распознают и классифицируют именованные сущности в тексте, такие как имена людей, места, организации, даты и другие. Они могут отвечать на вопросы на основе информации, представленной в тексте или документе. Они понимают контекст вопроса и извлекают необходимую информацию для точных ответов. Однако существующие LLM основаны на обработке пары текст-изображение. Они нуждаются в помощи, когда задача заключается в создании новых изображений. Возникающие задачи в области видения и языка сильно зависят от данных, ориентированных на тему, и часто пропускают дескрипторы изображения.

Исследователи из Университета Калифорнии создали новую модель под названием MiniGPT-5, которая использует методы генерации видения и языка, основанные на генеративных вокенах. Это мультимодальный энкодер, который является новым эффективным методом по сравнению с другими LLM. Он сочетает генеративные вокены с устойчивыми моделями диффузии для генерации выводов видения и языка.

Термин “генеративные вокены” относится к специальным визуальным токенам, которые могут непосредственно обучаться на необработанных изображениях. Видимые токены относятся к элементам, добавленным вводу модели для включения визуальной информации или обеспечения мультимодального понимания. При создании подписей для изображений модель может брать изображение в качестве входных данных, токенизировать изображение на серию специальных визуальных токенов и комбинировать их с текстовыми токенами, представляющими контекст или описание изображения. Это интеграция позволяет модели генерировать содержательные и контекстно значимые подписи для изображений.

Исследователи следуют двухступенчатому подходу, в котором первая ступень – это унимодальное выравнивание высококачественных текстово-визуальных признаков из большого набора текстово-визуальных пар, а вторая ступень – это обеспечение хорошей координации визуальных и текстовых подсказок при генерации. Их метод обобщенных стадий позволяет избавиться от доменно-специфических аннотаций и делает решение на основе существующих работ. Они использовали стратегию с двойной потерей для сбалансированного учета текста и изображений. Их адаптированный метод также оптимизирует эффективность обучения и решает ограничения памяти, которые могут быть легко решены.

Команда реализовала эффективую настройку параметров для энкодера MiniGPT-4, чтобы лучше понимать инструкции или подсказки и улучшить его производительность в новых или нулевых задачах. Они также использовали настройку префикса и LoRA для языкового энкодера Vicuna, используемого в MiniGPT-4. Будущая работа по этим методам расширит применение, которое ранее было сложным из-за разрозненности существующих моделей изображений и текста.