Скоро ли у нас появится собственный персональный AI-партнер для просмотра фильмов?

Персональный AI-партнер для просмотра фильмов - скоро у нас?

Видео-LLaMA 🦙: объяснение статьи.

Будь то общение во время или после просмотра фильма, мы знаем, что нам нравится говорить о фильмах, которые нам нравятся. Но насколько близко мы к тому, чтобы делать это с помощью искусственного интеллекта? С помощью мощных LLM, таких как LLaMA [1], Video-LLaMA [2] приближает нас к возможности обсуждать видеоконтент. В конце этого блога вы узнаете, как Video-LLaMa работает с визуальным и звуковым содержимым видео, а также какие приемы использовали авторы для обучения модели. Но вы также узнаете о проблемах, связанных с обработкой видеоданных.

Результаты

Так что именно достигает Video-LLaMA?

Источник: [2]

Она успешно позволяет вам вводить видео и задавать вопросы не только о его визуальном содержимом, но и о том, что модель слышит в видео!

Источник: [2]

Благодаря своей архитектуре модель также способна работать со статическими изображениями, например, подробно описывать их или понимать концепцию “необычного” и описывать, что именно необычно в соответствующей сцене. Эта способность действительно усиливается уже существующими возможностями рассуждения современных LLM, таких как LLaMA.

Архитектура

Описание изображений или, более обще, модели изображение-текст, такие как Flamingo [3], LLaVa [4], BLIP2 [5], Kosmos-1 [6] и -2 [7], обычно используют визуальный кодировщик, такой как ViT, для встраивания одного изображения в последовательность вложений, а затем пытаются сопоставить их с LLM. Но в случае видео у нас нет одного изображения, а есть последовательность изображений и соответствующая аудио последовательность. Как же мы можем встраивать целое видео? Ну, честно говоря, почти так же.

Общая архитектура Video-LLaMA. Источник: [2]