Эта статья об искусственном интеллекте из Китая представляет ‘Monkey’ новый подход к искусственному интеллекту для улучшения разрешения ввода и контекстуальной связи в больших мультимодальных моделях

Новый подход 'Monkey' из Китая улучшение ввода и контекстуальной связи в мультимодальных моделях искусственного интеллекта

“`html

Большие мультимодальные модели становятся все более популярными благодаря своей способности обрабатывать и анализировать различные данные, включая текст и изображения. Ученые обратили внимание на их знания в различных мультимодальных активностях, включая разметку изображений, отвечая на визуальные вопросы и т. д. Современные модели, такие как LLaVA, MiniGPT4, mPLUG-Owl и Qwen-VL, являются примерами быстрого прогресса в этой области. Однако существует несколько препятствий, особенно при работе с сложными сценариями, из-за широкого диапазона разрешений изображений и необходимости в более высоком качестве обучающих данных. Кодировщик изображений улучшен, и для преодоления этих трудностей использованы большие наборы данных для увеличения входного разрешения.

Кроме того, LLaVA инновационен в расширении настройки инструкций на мультимодальные ситуации путем объединения мультимодальных данных по следованию инструкциям. Несмотря на эти достижения, часто требуется помощь в управлении размерами входных изображений и значительные затраты на обучение. Постоянно возрастает необходимость в более сложных описаниях изображений для понимания тонкостей связей между изображением и текстом с увеличением объема набора данных, условие, которому должны соответствовать краткие одно-предложные подписи, видимые в наборах данных, таких как COYO и LAION. Исследователи из Университета науки и технологии Хуазонг и Kingsoft представляют ресурсоэффективную технику увеличения входного разрешения в контексте парадигмы LMM, названную Monkey. Используя предварительно существующие LMM, исследовательская группа обходит трудоемкий процесс предварительного обучения благодаря наличию отличной открытой работы.

Исследовательская группа предлагает простой, но эффективный модуль, который использует подход скользящего окна для разделения высокоразрешенных изображений на более управляемые локализованные части. Статический визуальный кодировщик, несколько модификаций LoRA и обучаемый визуальный ресэмплер кодируют каждый фрагмент индивидуально. Затем языковой декодер получает кодировку этих фрагментов и глобальную кодировку изображения для улучшенного понимания изображения. Мы также разработали технику, объединяющую многоразовые признаки от многих генераторов, таких как BLIP2, PPOCR, GRIT, SAM и ChatGPT OpenAI, чтобы предоставить обильные и высококачественные данные описания.

Во-первых, модель их подписи к картинке может точно описывать практически каждый аспект изображения, включая различные аксессуары спортсмена и красный флаг на заднем фоне, без ошибок и упущений. Коричневая сумка на подписи выделена в описании модели, даже если она не является немедленно очевидной без тщательного рассмотрения изображения. Эта небольшая подсказка позволяет модели сделать обоснованные выводы, даже если они не могут быть уверены в них. Это показывает способность модели обращать внимание на мелкие детали и предоставлять логичные и точные описания. Помимо подробного объяснения визуала, модель также различает множество языков и соответствующие им сигналы.

На основании этой информации можно предсказать практическую пользу фотографии с помощью Monkey. Даже если на изображении отсутствует надпись “life quotes Tumblr” с буквой “e”, модель может ответить на вопрос об этом в рамках задачи вопросов и ответов. Это показывает, что модель может читать мелкий текст на фотографиях с более высоким разрешением после обучения. Способность модели читать данные с графиков и определить правильный ответ среди плотного текстового материала без отвлекающего текста демонстрируется, когда она правильно отвечает на вопрос по дате “6 октября 1966 года”. Это явление показывает, что модель может точно представить соответствие данного текста своей сопоставляющей цели. I демонстрирует способность модели точно идентифицировать ответ на запрос даже в густых и туманных текстах, подчеркивая актуальность модели для задачи и ее способность к общему знанию.

Преимущества Monkey включают:

1. Ассоциации в контексте. Представляя многоуровневую стратегию создания описаний, исследовательская группа повышает способность модели понимать связи между различными целями и более эффективно исследовать общие знания при создании текстовых описаний. Это приводит к созданию более глубоких и полных результатов.

2. Без предварительного обучения поддержка разрешения до 1344 x 896. Значительное разрешение выше, чем обычно используемое для LMM – 448 x 448, повышает способность идентификации и понимания малых или плотно упакованных объектов и текста.

3. Улучшения в производительности на нескольких проверочных наборах данных. Их модель Monkey дала хорошие результаты в таких задачах, как описание изображения, ответы на общие визуальные вопросы, ответы на визуальные вопросы, связанные с текстом сцены и ответы на визуальные вопросы, связанные с документом, благодаря тестированию ее на 16 различных наборах данных.
“`