Исследователи Alibaba представляют серию Qwen-VL набор моделей масштабного зрения-языка, разработанных для восприятия и понимания как текста, так и изображений.

Исследователи Alibaba представляют набор моделей Qwen-VL для масштабного зрения-языка, которые воспринимают и понимают текст и изображения.

Крупные языковые модели (LLM) в последнее время привлекли много внимания благодаря своим мощным способностям по созданию и пониманию текста. Эти модели имеют значительные интерактивные возможности и потенциал для повышения производительности в качестве интеллектуальных ассистентов, дополняя инструкции с намерением пользователя. Однако нативные большие языковые модели ограничены только текстом и не могут обрабатывать другие широко используемые модальности, такие как изображения, звук и видео, что существенно ограничивает сферу применения моделей. Для преодоления этого ограничения были созданы большие модели визуального языка (LVLM), обладающие способностью распознавать и понимать визуальную информацию.

Эти обширные модели визуального языка обладают значительным потенциалом для решения практических проблем, связанных с визуальной информацией. Исследователи из группы Alibaba представляют новый член семейства моделей серии Qwen – модели Qwen-VL, чтобы способствовать развитию мультимодального сообщества с открытым исходным кодом. Масштабные модели визуального языка из семейства Qwen-VL представлены в двух вариантах: Qwen-VL и Qwen-VL-Chat. Предварительно обученная модель Qwen-VL соединяет визуальный энкодер с языковой моделью Qwen-7B для обеспечения визуальных возможностей. После завершения трех этапов обучения Qwen-VL может распознавать и понимать визуальную информацию на многоуровневой шкале. Кроме того, Qwen-VL-Chat – это интерактивная модель визуального языка на основе Qwen-VL, которая использует методы выравнивания и предлагает более гибкое взаимодействие, такое как использование нескольких изображений, многоходовые дискуссии и возможность локализации. Это показано на рис. 1.

Рисунок 1: На рисунке 1 показаны некоторые качественные примеры, созданные Qwen-VL-Chat. Qwen-VL-Chat поддерживает использование нескольких изображений, круговые разговоры, многоязыковые разговоры и возможность локализации.

Характеристики:

• Высокая производительность: Она значительно превосходит текущие открытые модели больших визуальных языковых моделей (LVLM) по нескольким оценочным показателям, включая Zero-shot Captioning, VQA, DocVQA и Grounding, на одном и том же уровне модели.

• Многоязыковая модель LVLM, способствующая полному распознаванию и привязке китайского и английского двуязычного текста и примеров на изображениях: Qwen-VL естественным образом поддерживает английский, китайский и многоязыковой диалог.

• Многоизображенные переплетенные разговоры: Эта функция позволяет сравнивать несколько изображений, задавать вопросы о них и участвовать в многоизображенном повествовании.

• Точное распознавание и понимание: Разрешение 448×448 способствует распознаванию текста с мелкой детализацией, контролю качества документов и идентификации ограничивающего прямоугольника по сравнению с разрешением 224×224, используемым в конкурирующих открытых моделях LVLM.