Исследователи компании Microsoft представляют Kosmos-2.5 мультимодельную грамотную модель для машинного чтения изображений с текстовым содержимым.

Researchers at Microsoft present Kosmos-2.5, a multimodal intelligent model for machine reading of images with textual content.

В последние годы большие языковые модели (LLM) получили значительное значение в искусственном интеллекте, но они в основном сосредоточены на тексте и испытывают сложности в понимании визуального контента. Появились мультимодальные большие языковые модели (MLLM), чтобы преодолеть эту разрыв. MLLM объединяют визуальную и текстовую информацию в единой модели на основе трансформера, что позволяет им изучать и генерировать контент из обоих модальностей, что является значительным прорывом в возможностях искусственного интеллекта.

KOSMOS-2.5 – это мультимодальная модель, разработанная для выполнения двух тесно связанных задач транскрипции в единой структуре. Первая задача заключается в генерации текстовых блоков с учетом пространственного расположения и назначении координат пространства для строк текста в текстово-насыщенных изображениях. Вторая задача заключается в создании структурированного текстового вывода в формате markdown, фиксирующего различные стили и структуры.

Обе задачи управляются в рамках единой системы, используя общую архитектуру трансформера, специфичные для задачи подсказки и адаптируемые текстовые представления. Архитектура модели объединяет визионный кодировщик на основе ViT (Vision Transformer) с языковым декодером на основе архитектуры Transformer, соединенными через модуль ресэмплера.

Для обучения этой модели она проходит предварительное обучение на обширном наборе данных текстовых изображений, включающих строки текста с граничными рамками и простым текстом в формате markdown. Такой двойной подход к обучению задач улучшает общие возможности KOSMOS-2.5 в мультимодальной грамотности.

На приведенном выше изображении показана архитектура модели KOSMOS-2.5. Производительность KOSMOS-2.5 оценивается на основе двух основных задач: распознавания текста на уровне документа end-to-end и генерации текста изображений в формате markdown. Экспериментальные результаты показали его высокую эффективность в понимании задач, связанных с текстом на изображении. Кроме того, KOSMOS-2.5 обладает перспективными возможностями в сценариях с небольшим количеством и нулевым количеством обучающих примеров, что делает его универсальным инструментом для применения в реальных приложениях, связанных с текстово-насыщенными изображениями.

Несмотря на эти многообещающие результаты, текущая модель имеет некоторые ограничения, предлагая ценные направления для дальнейших исследований. Например, в настоящее время KOSMOS-2.5 не поддерживает точное управление положением элементов документа с помощью инструкций на естественном языке, несмотря на то, что она предварительно обучена на входах и выходах, связанных с пространственными координатами текста. В более широком исследовательском аспекте значительное направление состоит в дальнейшем развитии возможностей масштабирования модели.