Преодоление галлюцинаций в ИИ Как фактически расширенный RLHF оптимизирует соответствие зрения и языка в больших мультимодальных моделях
Преодоление галлюцинаций в искусственном интеллекте Как расширенный RLHF оптимизирует соответствие зрения и языка в больших мультимодальных моделях
За дополнительным предварительным обучением с использованием пар изображений и текстов или донастройкой моделей с помощью специализированных наборов данных для обучения визуальным указаниям, большие языковые модели могут погружаться в мультимодальную область, порождая мощные мультимодальные модели. Однако существуют преграды для создания таких моделей, главная из которых заключается в разрыве между количеством и качеством мультимодальных данных и наборов данных только текстового формата. Рассмотрим модель LLaVA, инициализированную с предварительно обученным визуальным кодировщиком и моделью языка, настроенной для работы с инструкциями. Она обучается на значительно меньшем количестве экземпляров, чем модели только на текстовых данных, которые используют более 100 миллионов примеров по 1800 задачам. Она обучается только на 150 тысячах искусственных разговорах на основе изображений. Из-за таких ограничений данных модальности визуальной и языковой могут не совпадать.
В результате мультимодальные модели могут генерировать галлюцинационные результаты, которые неточно связаны с контекстом, предоставляемым изображениями. Исследователи из UC Berkeley, CMU, UIUC, UW–Madison, UMass Amherst Microsoft Research и MIT-IBM Watson AI Lab представляют LLaVA-RLHF, обученную модель визуалистического языка для улучшенного мультимодального соответствия, чтобы решить проблемы, возникшие из-за отсутствия высококачественных настроек визуального инструктажа для обучения мультимодальных моделей. Один из их основных вкладов – адаптация мультимодального соответствия для LMM к универсальной и масштабируемой парадигме соответствия, известной как обучение с подкреплением по обратной связи от человека, которое продемонстрировало замечательную эффективность для текстовых AI-агентов. Для донастройки LMM используются предпочтения людей, сосредоточенные на распознавании галлюцинаций, и эти предпочтения используются в обучении с подкреплением.
Такая стратегия может улучшить мультимодальное соответствие по относительно низкой стоимости аннотации, такой как 3000 долларов США за сбор 10 тысяч предпочтений человека для дискуссий на основе изображений. Насколько они знают, это первое эффективное использование RLHF для мультимодального соответствия. Получение высоких оценок от модели вознаграждения иногда равносильно улучшению человеческих суждений, это называется хакингом вознаграждения. Это проблема возможна при текущей парадигме RLHF. Предыдущие исследования предложили итеративное сбор «свежей» обратной связи от людей для предотвращения хакинга вознаграждения, но этот метод обычно дорогой и не может правильно использовать существующие данные о предпочтениях людей. Это исследование предлагает более эффективный вариант, пытаясь сделать модель вознаграждения способной использовать знания и данные, уже присутствующие в более крупных языковых моделях, которые аннотировали люди.
- Всё, что вам нужно знать о серии больших языковых моделей (LLM) Qwen
- 12 основных принципов управления искусственным интеллектом
- Как можно оптимизировать распознавание движений на видео? Раскрываем силу модулей пространственного и временного внимания в методах глубокого обучения.
Рисунок 1: Диаграмма, иллюстрирующая возможность галлюцинаций во время фазы обучения с контролем преподавателя мультимодальной модели и способ, которым Фактическое Дополненное RLHF решает проблему низкой емкости модели вознаграждения, инициализированной от модели обучения с контролем преподавателя.
Во-первых, они используют превосходный визуальный кодировщик с более высоким разрешением и более крупной языковой моделью для улучшения общего функционирования модели вознаграждения. Во-вторых, они представляют алгоритм Фактического Дополненного RLHF, который, как показано на рис. 1, калибрует сигналы вознаграждения, дополняя их дополнительной информацией, такой как описания изображений или вариантом множественного выбора на основе истины. Они также дополняют синтетические данные настройки визуальных инструкций с использованием существующих высококачественных мультимодальных данных с аннотацией от людей в формате диалога для улучшения общих возможностей LMM во время этапа обучения с контролем преподавателя. Они специфично трансформируют Flickr30k в задание по поиску подписей, VQA-v2 и A-OKVQA в многораундовую задачу вопросов-ответов, и оба обучают модели LLaVA-SFT+ с использованием нового набора данных.
Наконец, они рассматривают, как оценивать мультимодальное соответствие LMM в условиях создания в реальном мире, уделяя особое внимание штрафованию любых галлюцинаций. Разработанные ими вопросы для проверки, MMHAL-BENCH, включают все 12 ключевых объектных категорий COCO и содержат восемь видов заданий. Согласно их анализу, этот базовый набор данных тесно соответствует человеческим оценкам, особенно если учитываются баллы против галлюцинаций. Как первая модель LMM, обученная с помощью RLHF, LLaVA-RLHF проявляет впечатляющую производительность в их экспериментальной оценке. Они получили улучшение на 94% по LLaVA-Bench, улучшение на 60% по MMHAL-BENCH и установили новые рекорды производительности для LLaVA с результатом в 52,4% по MMBench и 82,7% F1 по POPE. На GitHub они опубликовали свой код, модель и данные для доступа всем желающим.