Исследование ИИ из Китая представляет ‘Дятла’ инновационную платформу искусственного интеллекта, разработанную для корректировки галлюцинаций в многомодальных моделях большого объема языка (MLLM).

Дятел' инновационная платформа искусственного интеллекта из Китая, исправляющая галлюцинации в многомодальных моделях большого объема языка (MLLM) - результаты исследования

Исследователи из Китая представили новую корректирующую AI архитектуру под названием Woodpecker, чтобы решить проблему галлюцинаций в расширенных мультимодальных моделях языка (MLLMs). Эти модели, которые объединяют обработку текста и изображений, часто генерируют текстовые описания, которые не отражают точно содержание предоставленных изображений. Такие неточности упорядочены как галлюцинации на объектном уровне (с несуществующими объектами) и на уровне атрибутов (неправильные описания атрибутов объектов).

Текущие подходы к устранению галлюцинаций часто включают повторное обучение MLLMs с использованием специфических данных. Эти методы на основе инструкций могут требовать больших объемов данных и вычислительных ресурсов. В отличие от этого, Woodpecker предлагает альтернативу без обучения, которую можно применить к различным MLLMs, повышая интерпретируемость на разных этапах процесса коррекции.

Woodpecker состоит из пяти ключевых этапов:

1. Извлечение ключевых понятий: На этом этапе определяются основные объекты, упомянутые в сгенерированном тексте.

2. Формулирование вопросов: Вопросы формулируются вокруг извлеченных объектов для диагностики галлюцинаций.

3. Валидация визуальных знаний: Эти вопросы отвечаются с помощью экспертных моделей, таких как обнаружение объектов для вопросов на уровне объектов и моделей визуального вопроса-ответа (VQA) для вопросов на уровне атрибутов.

4. Генерация визуальных утверждений: Пары вопросов-ответов преобразуются в структурированную базу знаний, включающую утверждения как на уровне объектов, так и на уровне атрибутов.

5. Коррекция галлюцинаций: Используя визуальную базу знаний, система направляет MLLM на изменение галлюцинаций в сгенерированном тексте, добавляя ограничивающие рамки, чтобы обеспечить ясность и интерпретируемость.

Эта архитектура акцентирует прозрачность и интерпретируемость, делая ее ценным инструментом для понимания и исправления галлюцинаций в MLLMs.

Исследователи оценили Woodpecker на трех тестовых наборах данных: POPE, MME и LLaVA-QA90. В тесте POPE Woodpecker значительно улучшил точность по сравнению с базовыми моделями MiniGPT-4 и mPLUG-Owl, достигнув улучшения точности на 30,66% и 24,33% соответственно. Архитектура продемонстрировала согласованность при различных настройках, включая случайные, популярные и адверсариальные сценарии.

В тесте MME Woodpecker показал замечательные улучшения, особенно в запросах, связанных с подсчетом, где он превзошел MiniGPT-4 на 101,66 пункта. Для запросов на уровне атрибутов Woodpecker улучшил результаты базовых моделей, эффективно решая проблему галлюцинаций на уровне атрибутов.

В наборе данных LLaVA-QA90 Woodpecker последовательно улучшал точность и детализацию, что указывает на его способность исправлять галлюцинации в сгенерированных ответах MLLM и обогащать содержание описаний.

В заключение, архитектура Woodpecker предлагает промисловый корректировочный подход для решения галлюцинаций в мультимодальных моделях языка. Сосредоточиваясь на интерпретации и коррекции, а не на повторном обучении, она предоставляет ценный инструмент для повышения надежности и точности сгенерированных MLLM-описаний, что может принести пользу различным приложениям, связанным с обработкой текста и изображений.