Google AI предлагает PixelLLM модель видение-язык, способную к точному определению местоположения и согласованию видение-язык.

Google AI представляет модель PixelLLM, объединяющую видение и язык для точного определения местоположения и взаимосвязи данных

Большие языковые модели (LLM) успешно используют силу подобластей искусственного интеллекта (AI), включая обработку естественного языка (NLP), генерацию естественного языка (NLG) и компьютерного зрения. Благодаря LLM создание моделей, способных сложно анализировать изображения, отвечать на вопросы, связанные с изображениями, и описывать изображения естественным языком, стало возможным. Однако то, могут ли LLM выполнять задачи локализации, такие как привязка слов или ссылка на локализацию, до сих пор остаётся неясным.

Чтобы преодолеть этот вызов, команда исследователей из Google Research и UC San Diego представила интеллектуальную модель с названием PixelLLM, способную выполнять детальную локализацию и согласование зрения и языка. Этот подход вдохновлен тем, как натурально ведут себя люди, особенно младенцы, которые описывают своё визуальное окружение жестами, указыванием и названием. Команда сообщила, что целью является выяснения, как LLM могут извлекать понимание и рассуждение о пространстве из визуального ввода.

PixelLLM плотно связывает каждое слово, выводимое языковой моделью, с пиксельным положением. Для этого был добавлен небольшой многослойный перцептрон (MLP) поверх признаков слова, позволяя ему регрессировать к пиксельному положению каждого слова. Была использована низкоранговая донастройка (LoRA), которая позволяет обновлять или замораживать веса языковой модели. Модель также может получать текстовые или местоположенные подсказки, что позволяет ей предоставлять результаты, настроенные на подсказку.

Архитектура модели включает кодировщик изображения, кодировщик подсказки и извлекатель признаков подсказки. Большой языковой модели передаются параметры изображения, связанные с подсказкой, и опциональная текстовая подсказка, которые возвращаются в виде локализации по словам и заголовков. Благодаря способности принимать различные комбинации языка или местоположения в качестве ввода или вывода, архитектура является гибкой и приспособленной к широкому спектру задач сочетания обзора и языка.

Команда оценила модель, используя известные визионные задачи, такие как описание плотных объектов, описание с условием местоположения и привязка локализации. С впечатляющими показателями производительности, включая 89.8 P@0.5 на привязке локализации RefCOCO, 19.9 CIDEr на описании Visual Genome с условием и 17.0 mAP на плотном описании объектов, PixelLLM продемонстрировал передовые результаты в различных задачах. Формулировка плотной локализации пикселей является важной, как показывают различные исследования на RefCOCO, которые позволяют увеличить точность на 3.7 процента по сравнению с другими формулировками локализации. Таким образом, PixelLLM успешно обеспечивает точное согласование зрения и языка.

Команда суммировала свой основной вклад следующим образом:

  1. Была представлена новая модель обзора и языка под названием PixelLLM, которая выполняет локализацию слов и может генерировать описания картинок.
  1. Модель поддерживает текстовые или опциональные указания о местоположении в дополнение к вводу изображения.
  1. Был использован набор данных с локализацией для обучения локализации по словам.
  1. Модель способна адаптироваться к разнообразным задачам сочетания обзора и языка, включая сегментацию, описание с условием местоположения, привязку локализации и плотное описание.
  1. Модель показала превосходные результаты в описании с условием местоположения, плотном описании и привязке локализации и сегментации.