Познакомьтесь с MMMU новым стандартом искусственного интеллекта для мультимодальных задач экспертного уровня, пролагающим путь к искусственному общему интеллекту.

Познакомьтесь с MMMU новым стандартом искусственного интеллекта для экспертных мультимодальных задач, открывающим путь к искусственному общему интеллекту.

Развитие мультимодального предварительного обучения решает различные задачи, включая модели, такие как LXMERT, UNITER, VinVL, Oscar, VilBert и VLP. Модели, такие как FLAN-T5, Vicuna, LLaVA и другие, улучшают способности следовать инструкциям. Другие, такие как Flamingo, OpenFlamingo, Otter и MetaVL, исследуют обучение в контексте. В то время как визуальные вопросы и ответы (VQA) фокусируются на восприятии, MMMU выделяется своим требованием экспертных знаний и целенаправленного рассуждения по проблемам уровня колледжа. Его уникальные особенности включают всестороннее охват знаний, разнообразные форматы изображений и особое внимание к предметно-специфическому рассуждению, что отличает его от существующих стандартов.

Бенчмарк MMMU представлен исследователями из различных организаций, таких как IN.AI Research, University of Waterloo, The Ohio State University, Independent, Carnegie Mellon University, University of Victoria и Princeton University, и включает в себя разнообразные проблемы уровня колледжа из разных областей знаний. Это бенчмарк, который акцентирует внимание на экспертном восприятии и рассуждении и представляет существенные вызовы для современных моделей.

Данное исследование подчеркивает необходимость создания бенчмарков для оценки прогресса к созданию Expert AGI, превосходящих человеческие возможности. Нынешние стандарты, такие как MMLU и AGIEval, фокусируются на тексте и требуют больше мультимодальных вызовов. Большие мультимодальные модели (LMMs) показывают перспективу, но существующие бенчмарки требуют экспертных знаний в предметной области. Бенчмарк MMMU создан для заполнения этой пробела, представляя сложные проблемы уровня колледжа с различными типами изображений и переплетенным текстом. Он требует экспертного восприятия и рассуждения, представляя сложную оценку для LMMs, стремящихся к передовым возможностям искусственного интеллекта.

Бенчмарк MMMU, предназначенный для оценки Expert AGI, включает в себя 11,5 тысяч проблем уровня колледжа, охватывающих шесть областей знаний и 30 предметов. Сбор данных включает выбор тем на основе визуальных входов, привлечение студентов-аннотаторов для сбора мультимодальных вопросов и реализацию контроля качества. Несколько моделей, включая LLMs и LMMs, проходят оценку на MMMU в режиме нулевого примера, проверяя их способность генерировать точные ответы без настройки или демонстраций в нескольких примерах.

Бенчмарк MMMU представляет сложность для моделей, так как GPT-4V достигает только 55,7% точности, что указывает на значительный потенциал для улучшения. Требования экспертного восприятия и рассуждения делают его строгой оценкой для LLMs и LMMs. Анализ ошибок позволяет выявить проблемы в визуальном восприятии, представлении знаний, рассуждении и мультимодальном понимании, указывая на области для дальнейших исследований. Охватывая колледжевские знания с 30 различными форматами изображений, MMMU подчеркивает важность обогащения обучающих наборов данных специализированными знаниями для повышения точности и применимости в специализированных областях.

В заключение, создание бенчмарка MMMU является значительным прорывом в оценке LMMs для Expert AGI. Этот бенчмарк предоставляет вызовы для современных моделей, проверяя их базовые навыки восприятия и сложное рассуждение, способствуя пониманию прогресса в развитии Expert AGI. Он акцентирует внимание на экспертном восприятии и рассуждении, указывая на области для дальнейших исследований в визуальном восприятии, представлении знаний, рассуждении и мультимодальном понимании. Рекомендуется обогащение обучающих наборов данных специфическими для области знания знаниями для повышения точности и применимости в специализированных областях.