Эта научная статья посвящена LLaVA-Plus универсальному мультимодальному ассистенту, расширяющему возможности больших мультимодальных моделей.

LLaVA-Plus расширение возможностей больших мультимодальных моделей с универсальным мультимодальным ассистентом

“`

Создание универсальных помощников, способных эффективно выполнять различные действия в реальном мире, следуя указаниям пользователей (мультимодальным), долгое время было целью искусственного интеллекта. В этой области за последнее время наблюдается повышенный интерес к созданию фундаментальных моделей с возникающим пониманием мультимодальных данных и умением генерировать новые навыки в открытом мире. Как создать мультимодальных универсальных помощников для компьютерного зрения и задач с использованием видео и текста все еще нужно открыть, несмотря на эффективность использования больших языковых моделей (LLM) вроде ChatGPT для создания универсальных помощников для естественноязыковых задач. 

Текущие усилия, направленные на создание мультимодальных агентов, можно общо поделить на две группы: 

(i) Конечно-конечное обучение с использованием LLM, в котором подряд создается несколько больших мультимодальных моделей (LMM), непрерывно обучающихся на данных изображений и текста и данных мультимодальных инструкций. Открытые модели, такие как LLaVA и MiniGPT-4, а также частные модели, такие как Flamingo и мультимодальный GPT-4, продемонстрировали впечатляющее визуальное понимание и умение рассудить. Хотя эти конечно-конечные подходы обучению хорошо справляются с приобретением эмерджентных навыков LMM (например, в контекстном обучении), создание цельной архитектуры, которая может плавно интегрировать широкий спектр способностей, таких как сегментация и генерация изображений, необходимых для мультимодальных приложений в реальном мире, по-прежнему является сложной задачей. 

(ii) Инструментальное связывание с LLM, в котором используются слаженно спроектированные подсказки, позволяющие LLM вызывать различные инструменты (например, модели зрения, которые уже обучены) для выполнения желаемых (под)задач, не требуя дополнительного обучения модели. Хорошо известны работы VisProg, ViperGPT, Visual ChatGPT, X-GPT и MM-REACT. Сильной стороной этих подходов является их способность обрабатывать широкий спектр визуальных задач с использованием (новых) инструментов, которые можно разрабатывать дешево и интегрировать в искусственный интеллектный агент. Однако, необходимо, чтобы подсказки стали более гибкими и надежными, чтобы мультимодальные агенты могли надежно выбирать и активировать подходящие инструменты (из широкого и разнообразного набора) и комбинировать их результаты для предоставления окончательных решений для мультимодальных задач в реальном мире. 

Рисунок 1: Графическое представление возможностей LLaVA-Plus, обеспечиваемых с помощью приобретения навыков.

Исследователи из Университета Цинхуа, Microsoft Research, Университета Висконсин-Мэдисон, HKUST и IDEA Research в этой статье представляют LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills), мультимодального помощника с широким спектром применения, который приобретает навыки использования инструментов с помощью методологии конечно-конечного обучения, систематически улучшая возможности LMM с помощью настройки визуальных инструкций. По их сведениям, это первая задокументированная попытка объединить преимущества описанных ранее методов инструментального связывания и конечно-конечного обучения. Репозиторий навыков, поставляемый с LLaVA-Plus, содержит большой выбор инструментов для зрения и видео с текстом. Дизайн является примером теории “Общество Разума”, в которой отдельные инструменты создаются для определенных задач и имеют ограниченное использование самостоятельно; тем не менее, когда эти инструменты объединяются, они обеспечивают эмерджентные навыки, демонстрирующие большую интеллектуальность. 

Например, LLaVA-Plus может мгновенно создавать новые рабочие процессы, выбирать и активировать соответствующие инструменты из библиотеки навыков и собирать результаты их выполнения для выполнения различных реальных задач, которые не были видны во время обучения модели. С помощью настройки инструкций LLaVA-Plus может постепенно улучшаться путем добавления дополнительных возможностей или инструментов. Представим новый мультимодальный инструмент, созданный для определенного случая использования или навыка. Чтобы построить данные следования инструкциям для настройки, исследователи собирают соответствующие пользовательские инструкции, требующие использования этого инструмента, вместе с результатами их выполнения или последующими результатами. После настройки инструкций LLaVA-Plus получает дополнительные возможности, поскольку он учится использовать этот новый инструмент для выполнения ранее невозможных задач. 

“`

Кроме того, LLaVA-Plus отличается от предыдущих исследований по обучению использованию инструментов для моделей языка и видения путем использования исключительно визуальных подсказок в сочетании с мультимодальными инструментами. С другой стороны, LLaVA-Plus улучшает возможности LMM в планировании и рассуждении, используя необработанные визуальные сигналы для всех сеансов взаимодействия человека с искусственным интеллектом. В кратком обзоре, вклад их работы можно охарактеризовать следующим образом:

• Использование данных для нового мультимодального инструмента выполнения инструкций. С использованием ChatGPT и GPT-4 в качестве инструментов разметки, они описывают новый процесс выбора данных инструкций на основе визуально-языковых связей, предназначенных для использования в сеансах взаимодействия человека с искусственным интеллектом.

• Новая, большая мультимодальная помощница. Они создали LLaVA-Plus, мультимодального помощника с широким спектром применения, который расширяет возможности LLaVA путем интеграции обширной и разнообразной коллекции внешних инструментов, которые можно быстро выбирать, собирать и использовать для выполнения задач. На рисунке 1 показано, как LLaVA-Plus значительно расширяет возможности LMM. Экспериментальное исследование подтверждает эффективность LLaVA-Plus путем демонстрации устойчиво лучших результатов на нескольких бенчмарках, особенно в новом классе VisiT-Bench с широким спектром задач реального мира.

• Без использования исходных данных. Общедоступные материалы, которые они предоставят, включают полученные мультимодальные данные инструкций, кодовую базу, контрольные точки LLaVA-Plus и демонстрацию визуального чата.