Лаборатория искусственного интеллекта Tencent представляет GPT4Video объединенная модель естественного языка для понимания инструкций и генерации с учетом безопасности.

Лаборатория искусственного интеллекта Tencent представляет GPT4Video новая модель естественного языка для безопасного понимания инструкций и генерации

Проблему понимания видео и сценариев генерации решают исследователи Tencent AI Lab и Университета Сиднея, представляя GPT4Video. Эта универсальная многомодельная платформа поддерживает LLM с возможностью как понимания, так и генерации видео. GPT4Video разработал подход с использованием инструкций, интегрированных с стабильной моделью диффузии, которая эффективно и безопасно обрабатывает сценарии генерации видео.

Ранее исследователи разрабатывали многомодальные языковые модели, которые обрабатывают визуальные входы и текстовые выходы. Например, некоторые исследователи сосредоточились на обучении совместного пространства для нескольких модальностей. Растущий интерес вызывает возможность использования многомодальных языковых моделей для выполнения инструкций, и был представлен MultiInstruct – первый комплексный набор данных для подготовки многомодальных инструкций. LLM революционизировали обработку естественного языка. Генерация текста в изображение/видео исследовалась с использованием различных техник. Безопасность LLM также была обсуждена в последних работах.

GPT4Video является универсальной и гибкой системой, разработанной для предоставления LLM с передовыми возможностями понимания и генерации видео. GPT4Video является ответом на ограничения существующих MLLM, которые показывают недостатки при генерации многомодальных выходов, несмотря на их способность обрабатывать многомодальные входы. GPT4Video устраняет этот разрыв, позволяя LLM интерпретировать и генерировать богатое многомодальное содержимое.

Архитектура GPT4Video состоит из трех основных компонентов:

  • Модуль понимания видео, который использует извлекатель и абстрактор видео для кодирования и выравнивания информации о видео с пространством векторного представления слов LLM.
  • Тело LLM использует структуру LLaMA и методику эффективной настройки параметров с сохранением предварительно обученных параметров.
  • Часть генерации видео, которая создает стимулы для модели из Подборки тестов для модели видео от текста, следуя тщательно разработанным инструкциям по набору данных.

GPT4Video показал замечательные способности в понимании и генерации видео, превосходя Valley на 11,8% в задаче вопросно-ответной системы видео и показывая результаты лучше NExt-GPT на 2,3% в задаче генерации текста в видео. Эта модель оснащает LLM возможностями по генерации видео без дополнительных обучающих параметров и может работать с различными моделями по генерации видео.

В заключение, GPT4Video является мощной платформой, которая расширяет возможности языковых моделей и моделей зрения с продвинутыми функциями понимания и генерации видео. Выпуск специализированного набора данных для многомодальных инструкций обещает стимулировать будущие исследования в этой области. В дальнейших обновлениях планируется расширение на другие модальности, такие как изображение и аудио.