Расшифровка математики в изображениях Как новый стандарт MathVista превышает границы искусственного интеллекта в визуальном и математическом мышлении
Расшифровка математики в образах как новый стандарт MathVista переходит за пределы искусственного интеллекта в визуальном и математическом мышлении
MATHVISTA (математическая VISTA) представляется как эталон для оценки математических абстракций в больших языковых моделях (LLM) и больших мультимодальных моделях (LMM) визуальным контекстом. Стандарт объединяет различные математические и графические задачи и включает существующие и новые наборы данных. Первые оценки, включающие 11 производных моделей, включая LLM, LLM с инструментами и LMM, показывают значительную разницу в производительности по сравнению с возможностями человека, что указывает на необходимость дальнейшего развития. Этот эталон является критическим для разработки универсальных ИИ-агентов с математическими и визуальными абстракциями.
Текущие эталоны, оценивающие математические абстракции LLM, сосредотачиваются только на задачах, основанных на тексте, и некоторые, такие как GSM-8K, показывают насыщение производительности. Существует растущая потребность в надежных мультимодальных эталонах в научных областях, чтобы устранить этот недостаток. Эталоны, такие как VQA, исследуют визуальные возможности LMM за пределами естественных изображений, охватывая широкий спектр визуального контента. Фундаментальные модели с генеративным основанием стали неотъемлемыми при решении различных задач без настройки, и специализированные методы предварительного обучения улучшили рассуждение на основе графиков в визуальных контекстах. Недавние работы акцентируют внимание на растущей важности этих моделей в практических приложениях.
Математические абстракции – это критический аспект человеческого интеллекта с применением в образовании, анализе данных и научных открытиях. Существующие эталоны для математических абстракций ИИ основаны на тексте и не имеют визуальных контекстов. Исследователи из Университета Калифорнии в Лос-Анджелесе (UCLA), Университета Вашингтона и Исследовательского центра Microsoft представляют MATHVISTA, всесторонний эталон, объединяющий разнообразные математические и графические вызовы для оценки возможностей рассуждения фундаментальных моделей. MATHVISTA объединяет несколько типов рассуждений, основных задач и различных визуальных контекстов с целью улучшить возможности математических рассуждений моделей для применения в реальных условиях.
- Лаборатория искусственного интеллекта Tencent представляет прогрессивные условные модели диффузии (PCDM), которые поэтапно преодолевают разрыв между изображениями людей в заданной и исходной позах через три стадии.
- Разработать приложения с генеративным искусственным интеллектом для улучшения образовательного процесса и обучения.
- Эта AI-статья раскрывает секрет контекстного обучения Как языковые модели кодируют функции в векторную магию
MATHVISTA, эталон для оценки математических рассуждений базовых моделей в визуальных контекстах. В нем используется классификация типов задач, навыков рассуждения и визуальных контекстов для составления существующих и новых наборов данных. Эталон включает задачи, требующие глубокого визуального понимания и композиционного рассуждения. Предварительные тесты показывают, какие вызовы ставит перед GPT-4V, и подчеркивают его значимость.
MATHVISTA показывает, что наилучшей моделью является Мультимодальный Бард, достигающий точности в 34,8%, в то время как производительность человека значительно выше и составляет 60,3%. Текстовые LLM превосходят случайные базовые уровни, и 2-х-часовой GPT-4 достигает точности в 29,2%. Повышенные LLM, оснащенные подписями изображений и OCR-текстом, показывают лучшие результаты, а 2-х-часовой GPT-4 достигает точности в 33,9%. Открытые мультимодальные модели, такие как IDEFICS и LLaVA, показывают недостаточную производительность из-за ограничений в рассуждении по математике, распознавании текста, определении форм и понимании графиков.
В заключение, исследование MATHVISTA подчеркивает необходимость улучшения математического рассуждения в визуальных контекстах и сложности интеграции математики с визуальным пониманием. Дальнейшие направления работы включают разработку универсальных мультимодальных моделей с улучшенными математическими и визуальными возможностями, обогащение LLM внешними инструментами и оценку объяснений модели. Исследование подчеркивает важность развития ИИ-агентов, способных выполнять математически интенсивные и визуально насыщенные задачи реального мира, что может быть достигнуто благодаря инновациям в архитектуре моделей, данных и целей обучения для улучшения визуального восприятия и математического рассуждения.