Как улучшенный набор данных создает новую модель SOTA!

Как улучшенный набор данных способствует появлению новой модели SOTA!

🚀 “MMICL: Усиление модели видения-языка с помощью мультимодального контекстного обучения” объяснение статьи.

Иногда достаточно привести в порядок беспорядочный мир мультимодальных наборов данных AI, чтобы получить новую модель SOTA. Мы рассмотрим новую статью MMICL: “MMICL: усиление модели видения-языка с помощью мультимодального контекстного обучения” [1] от исследователей из Китая и Университета Вашингтона.

Вместо того чтобы сосредоточиться на простых задачах изображение-текст, таких как подписывание изображений или ответы на вопросы на основе изображений, в этой статье хотят создать модель, которая выступает очень сильно в более сложных и реальных мультимодальных сценариях с переплетенными изображениями и текстом.

Примеры диалогов видения-языка, созданных MMICL. Источник: [1]

к примеру (a), демонстрирует, как пользователь просит ИИ описать изображение собаки, непосредственно ссылаясь на элементы оригинального изображения с использованием его частей. Или, в примере (b), мы просим ИИ логически связать два разных изображения, что сильно отличается от простого просмотра одного изображения и ответа на вопрос. Если к примеру взять на один шаг дальше пример (e), мы также можем увидеть, как модель может понять временную связь между изображениями при просмотре кадров видео. И если мы посмотрим на (f), модель также прекрасно улавливает сложные ссылки от текста к изображению, то есть она знает, какие изображения являются изображениями 0, 1, 2 и 3.

Архитектура и обучение

Итак, как выглядит архитектура модели? Ну, основной вклад, по крайней мере, на мой взгляд, это новый набор данных, о котором мы поговорим через секунду. Так что сама архитектура модели на самом деле не новая. Она такая же, как в BLIP-2 [2].

Иллюстрация архитектуры MMICL. Источник: [1]

У нас есть замороженный кодировщик изображений, например, ViT, который генерирует характеристики изображения. Затем эти характеристики изображения передаются через Q-Former и полносвязный слой для преобразования характеристик изображения в визуальную подсказку, то есть для выравнивания и проектирования таким образом, чтобы…