Исследователи искусственного интеллекта Baidu представляют VideoGen новый подход к генерации видео на основе текста, который может создавать видео высокого разрешения с высокой точностью кадров.

Исследователи Baidu представляют VideoGen - новый подход к генерации видео на основе текста с высокой точностью и разрешением.

Системы генерации изображений из текста (T2I), такие как DALL-E2, Imagen, Cogview, Latent Diffusion и другие, проделали большой путь в последние годы. С другой стороны, задача генерации видео из текста (T2V) остается сложной из-за необходимости высококачественного визуального контента и плавного, реалистичного движения, соответствующего тексту. Кроме того, крупномасштабные базы данных комбинаций текст-видео очень сложно найти.

Недавние исследования компании Baidu Inc. представляют VideoGen – метод создания высококачественного и непрерывного фильма на основе текстовых описаний. Для направления создания T2V исследователи сначала создают изображение высокого качества с помощью модели T2I. Затем они используют каскадный модуль латентного диффузионного видео, который генерирует серию сглаженных латентных представлений высокого разрешения на основе ссылочного изображения и текстового описания. При необходимости они также используют подход на основе потоков для увеличения частоты дискретизации последовательности латентных представлений во времени. В конце концов, команда обучает видеодекодер преобразовывать последовательность латентных представлений в фактическое видео.

Создание ссылочного изображения с помощью модели T2I имеет два отличительных преимущества.

  1. Улучшается визуальное качество полученного видео. Предложенный метод использует модель T2I для использования гораздо большего набора данных пар изображений и текста, который более разнообразен и информативен по сравнению с набором данных пар видео и текста. По сравнению с Imagen Video, который использует парные обучающие данные изображений и текста, этот метод более эффективен на этапе обучения.
  2. Каскадная модель латентного диффузионного видео может быть направлена ссылочным изображением, что позволяет ей изучать динамику видео, а не только визуальный контент. Команда считает, что это дополнительное преимущество по сравнению с методами, которые используют только параметры модели T2I.

Команда также отмечает, что текстовое описание не является необходимым для работы их видеодекодера, чтобы создать фильм из последовательности латентных представлений. Таким образом, они обучают видеодекодер на большем объеме данных, включая пары видео и текста и неразмеченные (несопоставленные) фильмы. В результате этот метод улучшает плавность и реалистичность движения созданного видео благодаря использованию высококачественных видеоданных.

Как показывают результаты исследований, VideoGen представляет собой значительное улучшение по сравнению с предыдущими методами генерации видео из текста как с точки зрения качественной, так и количественной оценки.