Внутри LlaVA Первая альтернатива GPT-4V с открытым исходным кодом

Внутри LlaVA Первая альтернатива с открытым исходным кодом для GPT-4V

Модель превосходит GPT-4 в нескольких задачах визуального обучения.

Image Credit: https://www.reddit.com/r/machinelearningnews/comments/1388fp2/meet_llava_a_large_language_multimodal_model_and/

Недавно я начал выпускать образовательную рассылку, посвященную искусственному интеллекту, которая уже имеет более 160 000 подписчиков. TheSequence – это целенаправленная на машинное обучение рассылка, которая требует всего 5 минут на прочтение. Цель – быть в курсе проектов машинного обучения, научных статей и концепций. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник для быть в курсе новостей развития в машинном обучении, искусственном интеллекте и данных…

thesequence.substack.com

Несколько недель назад OpenAI представила новые возможности обработки изображений и аудио в GPT-4. Фундаментально, исследовательская лаборатория анонсировала новую модель, известную как GPT-4 Vision (GPT-4V), позволяющую пользователям давать инструкции GPT-4 на основе изображений и аудио. GPT-4V представляет собой интересное развитие в области моделей основанного на мультимодальности. Через несколько дней после анонса GPT-4V у нас уже был первый альтернативный проект с открытым исходным кодом. Исследователи из Университета Висконсин-Мэдисон и Microsoft Research представили Large Language and Vision Assistant (LLaVA), мультимодальную модель LLaMA, способную обрабатывать изображения и аудио входные данные.

LLaVA – это удивительная модель, способная безупречно соединить визуальный кодировщик и LLM (Large Language Model), чтобы обеспечить всестороннее понимание визуальной и языковой информации. Первые эксперименты с LLaVA при расширении многомодального GPT-4 показали его впечатляющую мощь, даже при работе с ранее неизвестными изображениями и указаниями.

Одним из значимых прорывов в этой работе является исследование визуального обучения-настройки. Это знаменует начало развития многогранного визуального ассистента, позволяющего давать разносторонние указания. В сопроводительной статье, посвященной представлению LLaVA, сделаны следующие значительные вклады в эту область:

· Мультимодальные данные-последовательности инструкций: Одной из основных преград в этом пути является нехватка мультимодальных данных для последовательности инструкций. Для решения этой проблемы был разработан новый подход и конвейер для обработки данных. Эта методика эффективно преобразовывает пары изображений и текста в требуемый формат последовательности инструкций с использованием ChatGPT/GPT-4.

· Большие мультимодальные модели: LLaVA была создана с помощью создания большой мультимодальной модели (LMM). Этот результат был достигнут путем объединения визуального энкодера CLIP с декодером языка, известным как LLaMA. Затем эти компоненты были совместно настроены с использованием данных визуально-языковой инструкции, полученных во время проекта. Расширенный эмпирический анализ подтвердил эффективность использования сгенерированных данных для настройки инструкции LMM, предлагая практические исследования в развитии универсального визуального помощника. Заметно, что с GPT-4 LLaVA достигла лучшего показателя на наборе данных Science QA многомодального рассуждения.

· Инициатива с открытым исходным кодом: В духе сотрудничества и обмена знаниями, команда LLaVA гордо представляет несколько ценных материалов общественности.

Пожалуй, самым значительным вкладом LLaVA является способ использования GPT-4 для создания набора данных, настроенного по инструкции.

Генерация визуальных инструкций с помощью GPT-4

В области мультимодальных данных сообщество столкнулось с значительным наплывом публично доступных ресурсов, охватывающих широкий спектр пар изображение-текст от CC до LAION. Однако, когда дело доходит до области мультимодальных данных для следования инструкциям, доступный пул остается ограниченным. Этот недостаток, по части, связан с трудоемким и несколько неясным процессом, особенно при полагании на коллективное участие людей. Извлекая вдохновение из выдающегося успеха текущих моделей GPT в задачах аннотации текста, вопрос возникает: Почему бы не использовать мощь ChatGPT/GPT-4 для сбора мультимодальных данных, связанных с следованием инструкциям, опираясь на существующие пары изображение-текст?

Представьте себе изображение, Xv, и соответствующую подпись, Xc. Естественным образом они приводят к созданию набора вопросов, Xq, нацеленных на инструктирование искусственного интеллекта-помощника в описании содержимого изображения. Используя GPT-4, мы составляем список таких вопросов, как показано в таблице 8 в приложении. Таким образом, простой подход к расширению пары изображение-текст в их инструкционный аналог принимает форму: Человек создает Xq Xv<STOP>nn, в то время как Помощник отвечает Xc<STOP>nn. Хотя это экономичный способ, этот простой метод расширения ограничен разнообразием и глубиной, как в инструкциях, так и в результатирующих ответах.

Для решения этого ограничения, подход переключается на использование GPT-4 или ChatGPT, сосредоточенного на языке, как мощных учителей. Эти модели принимают текст в качестве входных данных и находят применение в формировании мультимодальных данных, связанных со следованием инструкциям и включающих визуальное содержимое. Методология ясна: для преобразования изображения в его визуальные особенности для опроса только текстовой модели GPT, в игру вступают символьные представления. Эти представления делятся на две категории:

· Подписи: Служат как текстовые описания, предлагающие различные перспективы на визуальную сцену.

· Bounding Boxes: Эти удобные рамки служат для точного определения и выделения объектов на сцене. Каждая рамка кодирует не только концепцию объекта, но и его пространственное расположение.

· С использованием этого инновационного подхода, стремление расширить мультимодальные данные, связанные со следованием инструкциям, призвано открыть новые горизонты разнообразия и глубины, сокращая разрыв между визуальным содержимым и текстовыми инструкциями. Следите за новостями, поскольку GPT-4 продолжает революционизировать область мультимодального искусственного интеллекта.

Источник изображения: https://llava-vl.github.io/

Архитектура LLaVA

LLaVA безупречно связывает предобученный визуальный кодировщик CLIP ViT-L/14 с мощной моделью на большом языке, Vicuna, с помощью прямой матрицы проекции. Путь к его замечательным возможностям раскрывается в двухэтапном процессе настройки инструкций:

Этап 1: Предварительное обучение для выравнивания признаков

На этом первоначальном этапе фокус сосредоточен только на обновлении матрицы проекции. Это обновление основано на подмножестве данных CC3M и проложило путь к дальнейшему развитию.

Этап 2: Подстройка путем доработки до конца

Здесь набирает силу как матрица проекции, так и LLM благодаря доработкам, ориентированным на два различных сценария использования:

· Визуальный чат: LLaVa проходит доработку, используя наши тщательно изготовленные мультимодальные данные для следования инструкциям, разработанные для удовлетворения повседневных потребностей пользователей.

· Science QA: LLaVa отправляется в путь доработки, используя мультимодальный набор данных для рассуждения, специально разработанный для сложной области науки.

Источник изображения: https://llava-vl.github.io/

Концепция настройки больших языковых моделей (LLM) с использованием машинно-генерируемых данных, следующих за инструкциями, несомненно, повышает возможности нулевой адаптации в языковой сфере. Однако ее применение в области мультимодального AI остается относительно неизведанной территорией.

Предварительные результаты

Первоначальная оценка LLaVA показывает невероятные результаты по сравнению с GPT-4.

Image Credit: https://llava-vl.github.io/

Ранние главы истории LLaVA не перестают удивлять. Эти эксперименты показывают впечатляющие возможности LLaVA в чате, иногда повторяющие поведение мультимодальной GPT-4 при работе с неизвестными изображениями и инструкциями. Он обладает впечатляющим относительным показателем в 85,1% по сравнению с GPT-4 на синтетическом мультимодальном наборе данных, следующем за инструкциями. Более того, когда LLaVA и GPT-4 объединяют усилия после доведения до совершенства на Science QA, они достигают беспрецедентной точности, достигая поразительных 92,53%.

Image Credit: https://llava-vl.github.io/

LLaVA является одной из наиболее захватывающих разработок в мире мультимодальных LLM и является важным шагом для движения открытой модели на основе исходного кода.