Познакомьтесь с Vchitect системой создания видео общего назначения с открытым исходным кодом для приложений текст-в-видео (T2V) и изображение-в-видео (I2V).

Узнайте о системе Vchitect создание видео на основе текста и изображений с открытым исходным кодом для многоцелевых приложений (T2V и I2V).

Взрывной рост популярности искусственного интеллекта (ИИ) в последнее время привел к великим достижениям в области глубоких генеративных моделей. Эти модели были применены в области генерации видео для создания изображений и синтеза изображений. Известными примерами являются авторегрессионные модели, такие как GAN и VAE, которые вызвали волну интереса среди сообщества ИИ в использовании схожих методов для создания видео.

Использование глубоких генеративных моделей для генерации видео несет свои сложности, так как из-за их небольшого масштаба их применение ограничено определенными областями, включая генерацию лица или тела. Однако новые прогрессивные модели диффузии большого масштаба и мощности обработки открыли больше возможностей для создания видео в более широких контекстах. Несмотря на достижения, остаются нерешенными проблемы, такие как создание кинематографического визуального качества фильмов и решение проблем, связанных с временной связностью и согласованностью объекта, особенно в длинных видеороликах.

Для решения этих проблем команда исследователей представила систему Vchitect – крупномасштабную всестороннюю систему создания видео, предназначенную для приложений Text-to-Video (T2V) и Image-to-Video (I2V). Эта система разработана с целью синтеза фильмов с разной продолжительностью и кинематографической визуальной эстетикой для обеспечения плавности движений камеры и согласования сюжета.

Vchitect может создавать видеоролики высокой четкости любой продолжительности, от нескольких секунд до нескольких минут. Он обеспечивает плавные переходы между сценами и поддерживает последовательность повествования. Система интегрирует несколько моделей для удовлетворения различных аспектов производства видео, которые следующие:

  1. LaVie, Text-to-Video Model (T2V): Служит основополагающей парадигмой для Vchitect, который преобразует письменные описания в краткие, превосходные фильмы.
  1. SEINE, Image-to-Video (I2V) Generation Model: Эта функция увеличивает адаптивность системы, позволяя ей создавать динамичный контент из статических фотографий.
  1. Модель Short-to-Long (S2L): Создает непрерывные связи и переходы между короткими видеороликами. Улучшает общую связность и ход длинных видеороликов для более захватывающего просмотра.
  1. Модель Subject-Consistent: Эта модель может создавать видеоролики с одним и тем же объектом. Поддержание связности между отдельными кадрами крайне важно, особенно когда один и тот же человек или объект появляется в нескольких сегментах фильма.
  1. Модель временной интерполяции: Улучшает плавность движений в создаваемых видеороликах и повышает общий ход видеоконтента путем улучшения временных характеристик.
  1. Модель повышения разрешения видео: Эта модель повышает разрешение создаваемых видеороликов и решает вопросы качества пространственного визуального образа. Это крайне важно для обеспечения ясности и отличного качества визуальных элементов.

Команда также создала обширную и разнообразную видео-коллекцию под названием Vimeo25M. С 25 миллионами пар текст-видео, эта коллекция приоритизирует визуальное привлекательность, разнообразие и качество. Команда поделилась, что для достижения достаточной обученности моделей и их способности обработки широкого спектра событий и типов контента необходимо включить широкий и разнообразный набор данных.

Также был проведен комплексный анализ, который показывает преимущества базовой модели T2V в системе Vchitect. В этую оценку были включены аспекты, такие как визуальное качество, связность и способность создавать фильмы, соответствующие данным вербальным описаниям.