Это исследование искусственного интеллекта представляет две модели диффузии для генерации высококачественного видео модели текст-в-видео (T2V) и модели изображение-в-видео (I2V).

Две модели диффузии искусственного интеллекта для создания высококачественного видео T2V и I2V

Команда исследователей из Гонконга представила две модели диффузии с открытым исходным кодом для генерации качественного видео. Модель текст-видео (T2V) генерирует видео высокого кинематографического качества на основе входных данных текста, превосходя другие открытые модели T2V по производительности. В свою очередь, модель изображение-видео (I2V) преобразует исходное изображение в видео, сохраняя содержание, структуру и стиль. Эти модели ожидаются, что продвинут технологию генерации видео в академической и промышленной сферах, предоставляя ценные ресурсы для исследователей и инженеров.

Модели диффузии (DM) успешно применяются в генерации контента, включая текст-изображение и видео. Модели диффузии видео (VDM), такие как Make-A-Video, Imagen Video и другие, расширили фреймворк Stable Diffusion (SD), чтобы обеспечить временную согласованность в открытых моделях T2V. Однако эти модели имеют ограничения по разрешению, качеству и композиции. Они превосходят существующие открытые модели T2V, продвигая технологию в сообществе.

Генеративные модели, особенно модели диффузии, значительно продвинули генерацию изображений и видео. Однако, в то время как существуют открытые модели текст-изображение (Т2I), модели T2V ограничены. В моделях T2V используются слои временного внимания и совместное обучение для обеспечения согласованности, а модель I2V сохраняет содержание и структуру изображения. Путем предоставления этих моделей исследователи стремятся поддержать сообщество с открытым исходным кодом и продвинуть технологию генерации видео вперед.

В исследовании представлены две модели диффузии: T2V и I2V. Модель T2V использует архитектуру 3D U-Net с пространственно-временными блоками, сверточными слоями, пространственными и временными трансформаторами и двумя слоями кросс-внимания для согласования эмбеддингов текста и изображения. Модель I2V преобразует изображения в видеоклипы, сохраняя содержание, структуру и стиль. Обе модели используют обучаемую сеть проекции для обучения. Оценка включает метрики качества видео и согласования между текстом и видео.

Предложенные модели T2V и I2V превосходят другие открытые модели по качеству видео и согласованию текста и видео. Модель T2V использует архитектуру денойзинга 3D U-Net, обеспечивая высокую визуальную достоверность в созданных видео. Модель I2V эффективно преобразует изображения в видеоклипы, сохраняя содержание, структуру и стиль. Сравнительный анализ с моделями, такими как Gen-2, Pika Labs и ModelScope, выделяет их превосходство в визуальном качестве, согласовании текста и видео, временной согласованности и качестве движения.

В заключение, недавнее внедрение моделей T2V и I2V для генерации видео показало большой потенциал в продвижении технологических достижений в сообществе. В то время как эти модели продемонстрировали превосходную производительность в терминах качества видео и согласования текста и видео, по-прежнему существует потребность в будущем усовершенствовании в таких областях, как длительность, разрешение и качество движения создаваемых видео. Однако с развитием этих моделей с открытым исходным кодом исследователи считают возможным дальнейшие улучшения в этой области.

В будущем можно рассмотреть добавление кадров и создание модели интерполяции кадров, чтобы увеличить продолжительность модели более чем на 2 секунды. Для улучшения разрешения можно рассмотреть сотрудничество с ScaleCrafter или использование пространственного масштабирования. Для повышения качества движения и визуального качества рекомендуется работать с данными более высокого качества. Включение образов-подсказок и изучение условных ветвей изображений также могут быть потенциальными областями для создания динамичного контента с улучшенной визуальной достоверностью с использованием модели диффузии.