Исследователи из UCLA и Google предлагают AVIS революционную ИИ-платформу для автономного поиска информации в области вопросно-ответной системы на основе визуального анализа

Researchers from UCLA and Google propose AVIS, a revolutionary AI platform for autonomously searching information using visual analysis in a question-answering system.

GPT3, LaMDA, PALM, BLOOM и LLaMA – всего лишь несколько примеров больших языковых моделей (LLM), которые продемонстрировали свою способность хранить и применять огромное количество информации. Здесь отображаются новые навыки, такие как контекстное обучение, создание кода и рассуждение на основе здравого смысла. Недавно были предприняты усилия по обучению LLM одновременной обработке визуальных и языковых данных. GPT4, Flamingo и PALI – три примера впечатляющих визуальных языковых моделей (VLM), которые установили новые стандарты для множества задач, включая подписывание изображений, ответы на визуальные вопросы и распознавание открытого словаря. В то время как современные LLM превосходят возможности людей в задачах, связанных с поиском текстовой информации, визуальные языковые модели (VLM) испытывают трудности с визуальными информационно-поисковыми наборами данных, такими как Infoseek, Oven и OK-VQA.

По многим причинам самым совершенным моделям визуального языка (VLM) сложно удовлетворительно отвечать на такие запросы. Молодым людям нужно научиться распознавать детализированные категории и особенности на изображениях. Во-вторых, их рассуждения должны быть более устойчивыми, так как они используют более маленькую языковую модель по сравнению с передовыми моделями больших языковых моделей (LLMs). Наконец, в отличие от поисковых движков изображений, они не анализируют исходное изображение с помощью большой коллекции изображений, помеченных различными метаданными. В этом исследовании ученые из Университета Калифорнии в Лос-Анджелесе (UCLA) и Google предлагают новый подход к преодолению этих препятствий путем объединения LLM с тремя различными типами инструментов, что приводит к передовым результатам в задачах поиска визуальной информации.

  • Компьютерные программы, которые помогают с извлечением визуальной информации, включают в себя детекторы объектов, программное обеспечение оптического распознавания символов, модели подписывания изображений и программное обеспечение для оценки визуального качества.
  • Онлайн-ресурс для поиска данных и информации о внешнем мире
  • Метод нахождения релевантных результатов в поиске изображений путем анализа метаданных визуально связанных изображений.

Метод использует планировщик, управляемый LLM, чтобы решить, какой инструмент использовать и какой запрос отправить ему на лету. Кроме того, исследователи используют рассуждателя, основанного на LLM, чтобы изучить результаты инструментов и выделить соответствующие данные.

Для начала LLM упрощает запрос в стратегию, программу или набор инструкций. После этого активируются соответствующие API для сбора данных. Хотя этот подход обещает хорошие результаты в простых визуально-языковых задачах, в более сложных реальных сценариях он часто требует пересмотра. Из такого начального запроса нельзя определить всеобъемлющую стратегию. Вместо этого он требует непрерывной итерации в ответ на поступающие данные. Способность принимать решения на ходу является ключевым новшеством предлагаемой стратегии. Планирование вопросов, требующих визуальной информации, является многоэтапным процессом из-за сложности задания. Планировщик должен решить, какой API использовать и какой запрос отправить на каждом этапе. Он может только предвидеть полезность ответов от сложных API, таких как поиск изображений, или предсказывать их результаты после вызова. Поэтому исследователи выбирают динамическую стратегию вместо традиционных методов, которые включают планирование этапов процесса и вызовы API заранее.

Исследователи проводят пользовательское исследование, чтобы лучше понять, как люди принимают решения при взаимодействии с API для поиска визуальной информации. Чтобы ЛЛМ принимал обоснованные решения о выборе API и формировании запросов, они компилируют эту информацию в систематическую структуру. Существуют два основных способа, которыми система получает пользу от собранных пользовательских данных. Они начинают с создания графа переходов, определяя порядок действий пользователей. Этот граф определяет границы между состояниями и шаги, которые можно предпринять в каждом из них. Во-вторых, они предоставляют планировщику и рассуждателю полезные примеры принятия решений пользователей.

Основные результаты

  • Команда предлагает инновационную структуру визуального вопросно-ответного фреймворка, который использует большую языковую модель (LLM) для стратегического использования внешних инструментов и исследования их результатов, чтобы изучить необходимые знания для предоставления ответов на заданные вопросы.
  • Команда использует результаты пользовательского исследования о принятии решений людьми для создания систематического плана. Эта структура указывает большой языковой модели (LLM) имитировать принятие решений человеком при выборе API и построении запросов.
  • Стратегия превосходит передовые решения в задачах поиска визуальной информации на основе знаний Infoseek и OK-VQA. В частности, по сравнению с точностью 16,0% у PALI на наборе данных Infoseek (неизвестное сущность), наши результаты значительно выше – 50,7%.

API и другие инструменты

AVIS (Автономный поиск визуальной информации с использованием больших языковых моделей) нуждается в надежном наборе ресурсов для реагирования на визуальные запросы, требующие глубокого поиска информации.

  • Модель описания изображения
  • Модель визуального вопросно-ответного взаимодействия
  • Обнаружение объектов
  • Поиск изображений
  • OCR
  • Поиск веб-страниц
  • Короткий вопросно-ответный интерфейс LLM

Ограничения

В настоящее время основная функция AVIS – предоставлять визуальные ответы на вопросы. Исследователи планируют расширить сферу применения системы динамического принятия решений, основанной на LLM, чтобы включить дополнительные приложения. Текущая структура также требует модели PALM, являющейся вычислительно сложной LLM. Исследователи хотят определить, могут ли более маленькие и менее вычислительно интенсивные языковые модели принимать те же решения.

В итоге, исследователи из UCLA и Google предложили новый метод, который дает большим языковым моделям (LLM) доступ к широкому спектру ресурсов для обработки запросов на визуальные знания. Методология основана на данных исследования пользователей о процессе принятия решений человеком. Она использует структурированную схему, в которой планировщик, основанный на LLM, выбирает, какие инструменты использовать и как формировать запросы “на лету”. Выход выбранного инструмента будет обработан, и рассуждающая система, основанная на 9 LLM, извлечет ключевую информацию. Визуальный вопрос разбивается на более мелкие части, и планировщик и рассуждающая система работают вместе, чтобы решить каждую из них с использованием различных инструментов, пока будет накоплено достаточно данных для ответа на вопрос.