Эта статья об искусственном интеллекте раскрывает Vary новый подход к расширению словаря зрительного восприятия в больших моделях зрительного и языкового обработчиков для выполнения сложных задач многоязыкового восприятия

Искусственный интеллект новый подход Vary для расширения зрительного восприятия и языкового обработчика для выполнения сложных задач многоязыкового восприятия

Большие модели представления видео-языка (LVLM) сочетают в себе компьютерное зрение и обработку естественного языка для генерации текстовых описаний визуального контента. Эти модели продемонстрировали значительный прогресс в различных приложениях, включая создание подписей к изображениям, ответы на видимые вопросы и поиск изображений. Однако, несмотря на их впечатляющую производительность, у LVLM все еще есть некоторые проблемы, особенно когда речь идет о специализированных задачах, требующих плотного и тонкого восприятия. Проблема, решаемая методом Vary, заключается в ограниченном зрительном словаре LVLM при выполнении конкретных задач, которые требуют более сложного понимания визуального контента.

Исследователи из Университета Хуажун и Технологии MEGVII ввели Vary, метод усиления LVLM для специализированных задач, требующих плотного восприятия. Он позволяет LVLM получать новые функции эффективно, улучшая тонкое восприятие. Экспериментальные результаты демонстрируют эффективность Vary в разных функциях. Признавая возможность для улучшения, исследователи предлагают Vary в качестве платформы для дальнейших исследований. Отмечается использование GPT-4 для генерации обучающих данных и подчеркивается применимость Vary к различным последующим визуальным задачам, расширяя возможности LVLM, при этом сохраняя исходные функции.

Исследование рассматривает ограничения общих зрительных словарей, таких как CLIP-VIT, в плотных и тонкомасштабных сценариях визуального восприятия, мотивируя необходимость увеличения визуальных словарей в LVLM. Оно представляет метод Vary, вдохновленный расширением текстового словаря в LVLM для иностранных языков. Vary создает новый зрительный словарь с использованием сети словарной базы и интегрирует его с исходным словарем, с целью улучшения эффективности кодирования и производительности модели в различных задачах, таких как нераспознавание OCR на неанглийском языке и понимание диаграмм. Предполагается, что дизайн Vary стимулирует дальнейшие исследования в этом направлении.

Исследование представляет две конфигурации Vary: Vary-tiny и Vary-base. Vary-tiny, сосредоточенный на тонкомасштабном восприятии, не имеет ветки ввода текста и использует модель tiny OPT-125M. Он обучается с использованием документов и данных диаграмм в качестве положительных примеров и естественных изображений в качестве отрицательных примеров. В сети словарной базы Vary-tiny создается новый зрительный словарь, который интегрируется с исходным в Vary-base. Во время обучения Vary-base используются обе сети словарей, замораживая их веса, в то время как оптимизируются параметры LVLM и слои вставки ввода. Детали реализации включают оптимизацию AdamW, косинусный планировщик и определенные скорости обучения. Создается синтетические данные для понимания документов и диаграмм.

Vary демонстрирует высокую производительность во многих задачах, превосходя другие LVLM в понимании документов, понимании диаграмм и задачах MMVet. В частности, он достигает ANLS 78,2% в DocVQA и 36,2% в MMVet, что подчеркивает его компетентность в новых функциях разбора документов. Vary-tiny и Vary-base показывают хорошие результаты в задачах документообразования, причем Vary-base превосходит другие LVLM. В то время как исследование признает успех Vary, оно подчеркивает необходимость постоянного совершенствования в масштабировании визуальной лексики.

В заключение можно сформулировать несколько ключевых выводов исследования:

  • Предложение: Эффективный метод для масштабирования визуальной лексики в LVLM.
  • Методология: Предложенный метод представляет новую визуальную лексику, сгенерированную через интегрированную сеть с исходным языком.
  • Возможности: Этот метод улучшает тонкое восприятие, особенно в задачах понимания документов и диаграмм на уровне документа. Исходные возможности LVLM сохраняются, одновременно быстро усваивая новые функции.
  • Производительность: Вероятно, производительность может быть оценена по результатам различных задач, при этом данный метод превосходит другие LVLM в функциях разбора документов.