Исследование ИИ из Китая представляет ‘Дятла’ инновационную платформу искусственного интеллекта, разработанную для корректировки галлюцинаций в многомодальных моделях большого объема языка (MLLM).
Дятел' инновационная платформа искусственного интеллекта из Китая, исправляющая галлюцинации в многомодальных моделях большого объема языка (MLLM) - результаты исследования
Исследователи из Китая представили новую корректирующую AI архитектуру под названием Woodpecker, чтобы решить проблему галлюцинаций в расширенных мультимодальных моделях языка (MLLMs). Эти модели, которые объединяют обработку текста и изображений, часто генерируют текстовые описания, которые не отражают точно содержание предоставленных изображений. Такие неточности упорядочены как галлюцинации на объектном уровне (с несуществующими объектами) и на уровне атрибутов (неправильные описания атрибутов объектов).
Текущие подходы к устранению галлюцинаций часто включают повторное обучение MLLMs с использованием специфических данных. Эти методы на основе инструкций могут требовать больших объемов данных и вычислительных ресурсов. В отличие от этого, Woodpecker предлагает альтернативу без обучения, которую можно применить к различным MLLMs, повышая интерпретируемость на разных этапах процесса коррекции.
Woodpecker состоит из пяти ключевых этапов:
- Исследователи UC San Diego DYffusion модель диффузии, основанная на динамике, для пространственно-временного прогнозирования.
- Исследователи из Стэнфорда предлагают EquivAct прорыв в обучении роботов для обобщения задач по разным масштабам и ориентациям.
- Как этот исследователь, удостоенный премии Тьюринга, стал легендарным научным руководителем
1. Извлечение ключевых понятий: На этом этапе определяются основные объекты, упомянутые в сгенерированном тексте.
2. Формулирование вопросов: Вопросы формулируются вокруг извлеченных объектов для диагностики галлюцинаций.
3. Валидация визуальных знаний: Эти вопросы отвечаются с помощью экспертных моделей, таких как обнаружение объектов для вопросов на уровне объектов и моделей визуального вопроса-ответа (VQA) для вопросов на уровне атрибутов.
4. Генерация визуальных утверждений: Пары вопросов-ответов преобразуются в структурированную базу знаний, включающую утверждения как на уровне объектов, так и на уровне атрибутов.
5. Коррекция галлюцинаций: Используя визуальную базу знаний, система направляет MLLM на изменение галлюцинаций в сгенерированном тексте, добавляя ограничивающие рамки, чтобы обеспечить ясность и интерпретируемость.
Эта архитектура акцентирует прозрачность и интерпретируемость, делая ее ценным инструментом для понимания и исправления галлюцинаций в MLLMs.
Исследователи оценили Woodpecker на трех тестовых наборах данных: POPE, MME и LLaVA-QA90. В тесте POPE Woodpecker значительно улучшил точность по сравнению с базовыми моделями MiniGPT-4 и mPLUG-Owl, достигнув улучшения точности на 30,66% и 24,33% соответственно. Архитектура продемонстрировала согласованность при различных настройках, включая случайные, популярные и адверсариальные сценарии.
В тесте MME Woodpecker показал замечательные улучшения, особенно в запросах, связанных с подсчетом, где он превзошел MiniGPT-4 на 101,66 пункта. Для запросов на уровне атрибутов Woodpecker улучшил результаты базовых моделей, эффективно решая проблему галлюцинаций на уровне атрибутов.
В наборе данных LLaVA-QA90 Woodpecker последовательно улучшал точность и детализацию, что указывает на его способность исправлять галлюцинации в сгенерированных ответах MLLM и обогащать содержание описаний.
В заключение, архитектура Woodpecker предлагает промисловый корректировочный подход для решения галлюцинаций в мультимодальных моделях языка. Сосредоточиваясь на интерпретации и коррекции, а не на повторном обучении, она предоставляет ценный инструмент для повышения надежности и точности сгенерированных MLLM-описаний, что может принести пользу различным приложениям, связанным с обработкой текста и изображений.