Исследователи из Китая представляют Video-LLaVA простую, но мощную базовую модель для больших визуально-языковых данных.

Video-LLaVA мощная базовая модель для обработки видео-языковых данных от исследователей из Китая

“`html

Исследователи из Пекинского университета, Лаборатории Пенг Чэнг, Пекинской градской школы и Сунь Ятсена представляют подход к моделирующей видео-языковой модели Large Vision-Language (LVLM) – Video-LLaVA, объединяющей визуальное представление в языковом пространстве. В отличие от существующих методов, кодирующих изображения и видео отдельно, Video-LLaVA достигает единой LVLM, решая проблемы несоответствия при проекционной операции. Эта простая, но надежная модель превосходит бенчмарки на девяти наборах данных изображений, преуспевая в вопросно-ответной системе для изображений на пяти наборах данных и четырех инструментах.

Video-LLaVA интегрирует изображения и видео в единое пространство признаков, улучшая мультимодальные взаимодействия. Он превосходит Video-ChatGPT по различным изображениям и выделяется в системе вопросно-ответной системы для изображений. В области понимания видео Video-LLaVA постоянно опережает Video-ChatGPT и превосходит современную Chat-UniVi на нескольких видео наборах данных. Используя рассуждающие способности LLM, Video-LLaVA обучается с использованием Vicuna-7B v1.5 и визуальных анкодеров, основанных на LanguageBind и ViT-L14.

Решая проблемы несоответствия в существующих подходах, кодирующих изображения и видео отдельно, Video-LLaVA представляет собой объединенную модель видео-язык. Эта модель выравнивает визуальные представления изображений и видео до проекционной операции, уменьшая проблемы обучения мульти-модальных взаимодействий в LLM. Video-LLaVA превосходит передовые LVLM и Video-ChatGPT по различным изображениям и видео бенчмаркам, показывая улучшенную производительность в понимании и реагировании на инструкции от человека. Этот подход подчеркивает преимущества выравнивания визуальных признаков в единое пространство перед проекционной операцией для улучшенного обучения мульти-модальных взаимодействий.

Video-LLaVA выравнивает визуальные представления изображений и видео в едином пространстве признаков до проекционной операции. Он использует Vicuna-7B v1.5 в качестве языковой модели с визуальными анкодерами, полученными из LanguageBind и инициализированными через ViT-L14. Процесс обучения включает изменение размера и обрезку изображений до 224×224. Используя поднабор из 558K пар изображение-текст из CC3M для предварительного обучения пониманию, данные о инструкциях брались из разных источников, включая 665K наборов данных для инструкций изображение-текст из LLaVA v1.5 и 100K наборов данных для инструкций видео-текст из Video-ChatGPT.

Video-LLaVA превосходит Video-ChatGPT по девяти наборам данных изображений, показывая лучшую производительность на MSRVTT, MSVD, TGIF и ActivityNet соответственно на 5.8%, 9.9%, 18.6% и 10.1%. Он показывает результаты на 89 наборах данных изображений, превосходя InstructBLIP-7B в системе вопросно-ответной системы. Конкурируя с более мощными LVLM, он превосходит InstructBLIP-13B на 14.7 в задаче VisWiz. Video-LLaVA значительно улучшает вопросно-ответные системы для видео на четырех наборах данных, демонстрируя свою способность понимать и извлекать знания из изображений и видео через единое визуальное представление.

В заключение, Video-LLaVA является исключительно большой моделью визуального языка, которая эффективно решает проблемы несоответствия и показывает лучшие результаты на различных наборах данных изображений. Его совместное обучение на изображениях и видео повышает его профессионализм и позволяет превзойти модели, специально разработанные для изображений или видео. Замечательное понимание модели единых визуальных концепций и превосходная производительность в бенчмарках вопросно-ответной системы для изображений демонстрируют эффективность ее гармоничной модели обучения визуальных данных, подчеркивая ее мощные возможности.

В дальнейших исследованиях можно рассмотреть более продвинутые техники выравнивания перед проекцией для улучшения работоспособности LVLM в мультимодальных взаимодействиях. Следует рассмотреть альтернативные подходы к объединению токенизации для изображений и видео для решения проблем несоответствия. Оценка Video-LLaVA на дополнительных бенчмарках и наборах данных позволит оценить ее обобщаемость. Сравнение с более крупными языковыми моделями может осветить масштабируемость и потенциальные улучшения. Улучшение вычислительной эффективности Video-LLaVA и изучение влияния совместного обучения на производительность LVLM являются направлениями для дальнейшего исследования.

“`