Автономный поиск визуальной информации с использованием больших языковых моделей
Автономный поиск визуальной информации с помощью больших языковых моделей
Опубликовано Ziniu Hu, студент-исследователь, и Alireza Fathi, научный сотрудник, Perception Team, Google Research
Был сделан большой прогресс в адаптации больших языковых моделей (LLMs) для работы с мультимодальными входными данными, такими как описание изображений, визуальные вопросы и ответы (VQA) и распознавание открытого словаря. Несмотря на такие достижения, современные передовые визуальные языковые модели (VLMs) плохо справляются с задачами по поиску визуальной информации, такими как Infoseek и OK-VQA, где для ответа на вопросы требуется внешние знания.
![]() |
Примеры запросов по поиску визуальной информации, для ответа на которые требуются внешние знания. Изображения взяты из набора данных OK-VQA. |
В статье “AVIS: Autonomous Visual Information Seeking with Large Language Models” мы представляем новый метод, достигающий передовых результатов в задачах по поиску визуальной информации. Наш метод интегрирует LLMs с тремя типами инструментов: (i) инструментами компьютерного зрения для извлечения визуальной информации изображений, (ii) инструментом веб-поиска для получения информации и фактов из открытого мира и (iii) инструментом поиска изображений для получения соответствующей информации из метаданных, связанных с визуально похожими изображениями. AVIS использует планировщик на основе LLM для выбора инструментов и запросов на каждом шаге. Он также использует рассуждающий механизм на основе LLM для анализа выходных данных инструментов и извлечения ключевой информации. Компонент рабочей памяти сохраняет информацию на протяжении всего процесса.
![]() |
Пример сгенерированного рабочего процесса AVIS для ответа на сложный вопрос по поиску визуальной информации. Исходное изображение взято из набора данных Infoseek. |
Сравнение с предыдущими работами
Недавние исследования (например, Chameleon, ViperGPT и MM-ReAct) исследовали добавление инструментов в LLMs для работы с мультимодальными входными данными. Эти системы следуют двухэтапному процессу: планирование (разбиение вопросов на структурированные программы или инструкции) и выполнение (использование инструментов для сбора информации). Несмотря на успех в базовых задачах, подобный подход часто не справляется с сложными сценариями реального мира.
- Раскрытие байесовских потоковых сетей новая граница в генеративном моделировании
- Line Open-Source представляет jапонскую модель языка japanese-large-lm с 3,6 миллиарда параметров.
- Эта статья об искусственном интеллекте из Китая предлагает агента планирования задач (TaPA) вкорененных задач для закрепленного планирования с физическими ограничениями сцены
Также наблюдается рост интереса к применению LLMs в качестве автономных агентов (например, WebGPT и ReAct). Эти агенты взаимодействуют с окружающей средой, адаптируются на основе обратной связи в режиме реального времени и достигают поставленных целей. Однако эти методы не ограничивают инструменты, которые могут быть вызваны на каждом этапе, что приводит к огромному пространству поиска. В результате даже самые передовые LLMs сегодня могут попадать в бесконечные циклы или передавать ошибки. AVIS решает эту проблему с помощью управляемого использования LLM, основанного на решениях человека из пользовательского исследования.
Принятие решений LLM с помощью пользовательского исследования
Многие визуальные вопросы в наборах данных, таких как Infoseek и OK-VQA, являются сложными даже для людей и часто требуют помощи различных инструментов и API. Пример вопроса из набора данных OK-VQA показан ниже. Мы провели пользовательское исследование, чтобы понять принятие решений человеком при использовании внешних инструментов.
![]() |
Мы провели исследование пользователей, чтобы понять, как принимаются решения людьми при использовании внешних инструментов. Изображение взято из набора данных OK-VQA. |
Пользователям был предоставлен идентичный набор инструментов, как и нашему методу, включая PALI, PaLM и поиск в Интернете. Они получали входные изображения, вопросы, обнаруженные объекты и кнопки, связанные с результатами поиска изображений. Эти кнопки предоставляли разнообразную информацию о обнаруженных объектах, такую как сущности графа знаний, подписи к похожим изображениям, названия связанных продуктов и одинаковые подписи к изображениям.
Мы записываем действия и результаты пользователей и используем их в качестве руководства для нашей системы двумя основными способами. Во-первых, мы создаем граф переходов (показанный ниже), анализируя последовательность принятых пользователями решений. Этот граф определяет различные состояния и ограничивает доступный набор действий в каждом состоянии. Например, в начальном состоянии система может выполнить только одно из трех действий: подпись PALI, PALI VQA или обнаружение объекта. Во-вторых, мы используем примеры принятия решений людьми для руководства нашим планировщиком и рассуждающей системой с соответствующими контекстными примерами для улучшения производительности и эффективности нашей системы.
![]() |
Граф переходов AVIS. |
Общая структура
Наш подход использует стратегию динамического принятия решений, разработанную для ответа на запросы по визуальному поиску информации. Наша система имеет три основных компонента. Во-первых, у нас есть планировщик, который определяет следующее действие, включая соответствующий вызов API и запрос, который необходимо обработать. Во-вторых, у нас есть рабочая память, которая хранит информацию о результате выполнения API. Наконец, у нас есть рассуждающая система, задача которой – обработать выводы из вызовов API. Она определяет, достаточна ли полученная информация для получения окончательного ответа или требуется дополнительное получение данных.
Планировщик выполняет серию шагов каждый раз, когда требуется принятие решения относительно выбора инструмента и запроса, который необходимо отправить ему. На основе текущего состояния планировщик предоставляет набор потенциальных последующих действий. Пространство потенциальных действий может быть настолько велико, что поиск становится невозможным. Чтобы решить эту проблему, планировщик обращается к графу переходов для исключения нерелевантных действий. Планировщик также исключает действия, которые уже были выполнены и хранятся в рабочей памяти.
Затем планировщик собирает набор соответствующих контекстных примеров, собранных из решений, принятых людьми во время пользовательского исследования. С помощью этих примеров и рабочей памяти, которая содержит данные, собранные из предыдущих взаимодействий с инструментами, планировщик формулирует подсказку. Подсказка затем отправляется в LLM, который возвращает структурированный ответ, определяя следующий инструмент, который должен быть активирован, и запрос, который необходимо отправить ему. Такой дизайн позволяет планировщику вызываться несколько раз в процессе, обеспечивая динамическое принятие решений, которое постепенно приводит к ответу на входной запрос.
Мы используем рассуждающую систему для анализа вывода выполнения инструмента, извлечения полезной информации и определения, в какую категорию попадает вывод инструмента: информативный, неинформативный или окончательный ответ. Наш метод использует LLM с соответствующей подсказкой и контекстными примерами для выполнения рассуждений. Если рассуждающая система приходит к выводу, что она готова дать ответ, она выдаст окончательный ответ, завершая задачу. Если она определяет, что вывод инструмента неинформативен, она вернется к планировщику, чтобы выбрать другое действие на основе текущего состояния. Если она считает вывод инструмента полезным, она изменяет состояние и передает управление обратно планировщику для принятия нового решения в новом состоянии.
![]() |
AVIS использует стратегию принятия решений на основе визуальной информации в ответ на запросы на поиск информации. |
Результаты
Мы оцениваем AVIS на наборах данных Infoseek и OK-VQA. Как показано ниже, даже надежные модели визуально-языковых моделей, такие как OFA и PaLI, не обеспечивают высокую точность при настройке на Infoseek. Наш подход (AVIS), без настройки, достигает точности 50,7% на невидимом разделении сущностей этого набора данных.
![]() |
Результаты визуального ответа на вопросы AVIS на наборе данных Infoseek. AVIS достигает более высокой точности по сравнению с предыдущими базовыми моделями на основе PaLI, PaLM и OFA. |
Наши результаты на наборе данных OK-VQA показаны ниже. AVIS с несколькими примерами в контексте достигает точности 60,2%, что выше, чем у большинства предыдущих работ. AVIS достигает более низкой, но сравнимой точности по сравнению с моделью PALI, настроенной на OK-VQA. Это отличие по сравнению с Infoseek, где AVIS превосходит настроенный PALI, обусловлено тем, что большинство примеров вопросов-ответов в OK-VQA основано на здравом смысле, а не на детализированных знаниях. Поэтому PaLI способен закодировать такие общие знания в параметрах модели и не требует внешних знаний.
![]() |
Результаты визуального ответа на вопросы на A-OKVQA. AVIS достигает более высокой точности по сравнению с предыдущими работами, использующими обучение с небольшим количеством примеров или нулевым обучением, включая Flamingo, PaLI и ViperGPT. AVIS также достигает более высокой точности по сравнению с большинством предыдущих работ, настроенных на набор данных OK-VQA, включая REVEAL, ReVIVE, KAT и KRISP, и достигает результатов, близких к настроенной модели PaLI. |
Заключение
Мы представляем новый подход, который дает возможность LLM использовать различные инструменты для ответов на знаниевооруженные визуальные вопросы. Наша методология, основанная на данных человеческого принятия решений, собранных в ходе пользовательского исследования, использует структурированную схему, которая использует планировщик на основе LLM для динамического принятия решений о выборе инструмента и формировании запроса. Рассуждающий аппарат на основе LLM отвечает за обработку и извлечение ключевой информации из вывода выбранного инструмента. Наш метод итеративно использует планировщик и рассуждающий аппарат для использования различных инструментов до тех пор, пока не будет накоплена вся необходимая информация для ответа на визуальный вопрос.
Благодарности
Это исследование проводилось Зинью Ху, Ахметом Ишеном, Ченом Суном, Кай-Вей Чангом, Ицзоу Суном, Дэвидом А. Россом, Корделией Шмид и Алирезой Фати.