Познакомьтесь с BLIVA мультимодельной большой языковой моделью для более эффективного обработки вопросов с текстовым содержанием визуального характера

Meet BLIVA, a multimodal large language model for more efficient processing of visually-oriented textual questions.

Недавно большие языковые модели (LLM) сыграли важную роль в области понимания естественного языка, проявляя замечательные возможности в обобщении широкого спектра задач, включая нулевой и ограниченный набор данных. Модели языка и зрения (VLM), в частности GPT-4 от OpenAI в 2023 году, продемонстрировали значительный прогресс в решении задач открытого вопросно-ответного тестирования (VQA), которые требуют, чтобы модель ответила на вопрос о изображении или наборе изображений. Эти достижения были достигнуты путем интеграции LLM с возможностями визуального понимания.

Были предложены различные методы использования LLM для задач, связанных с зрением, включая прямое выравнивание с представлением визуального кодировщика и извлечение информации об изображении через фиксированное количество запросов с помощью вложений.

Однако, несмотря на их значительные возможности в области взаимодействия человек-агент на основе изображений, эти модели сталкиваются с трудностями при интерпретации текста внутри изображений. Изображения, содержащие текст, распространены в повседневной жизни, и способность понимать такое содержание является важной для визуального восприятия человека. В предыдущих исследованиях использовался модуль абстракции с запрашиваемыми вложениями, но этот подход ограничивал их способность улавливать текстовые детали внутри изображений.

В данной статье исследователи представляют BLIVA (InstructBLIP with Visual Assistant), мультимодальную LLM, стратегически спроектированную для интеграции двух ключевых компонентов: обученных вложений запросов, тесно связанных с самой LLM, и вложений патчей, содержащих более обширные данные, связанные с изображением. В обзоре предложенного подхода представлена ниже приведенная фигура.

https://arxiv.org/abs/2308.09936

Эта техника преодолевает ограничения, обычно связанные с предоставлением информации об изображении моделям языка, что в конечном итоге приводит к улучшению визуального восприятия и понимания текста-изображения. Модель инициализируется с использованием предварительно обученной InstructBLIP и кодировщика патчей, обученного с нуля. Следуется двухэтапная парадигма обучения. Начальный этап включает предварительное обучение слоя проекции вложений патчей и дообучение как Q-формера, так и слоя проекции вложений патчей с использованием данных по настройке инструкций. На протяжении этой фазы как кодировщик изображений, так и LLM остаются в замороженном состоянии на основе двух ключевых результатов экспериментов: во-первых, размораживание кодировщика зрения приводит к катастрофическому забыванию предыдущих знаний, и, во-вторых, одновременное обучение LLM не приводит к улучшению, а вносит значительную сложность в обучение.

Далее приводятся два примера сценариев, представленных авторами, демонстрирующих влияние BLIVA на задачи VQA, связанные с «Подробным описанием» и «Малым описанием + VQA».

https://arxiv.org/abs/2308.09936

Это было краткое описание BLIVA, новой мультимодальной модели AI LLM, объединяющей текстовые и визуально закодированные вложения патчей для решения задач VQA. Если вас заинтересовало и вы хотите узнать больше об этом, пожалуйста, ознакомьтесь со ссылками, указанными ниже.