Стабильная диффузия для видео объяснена

Освоение стабильной диффузии для видео объясняем простыми словами

Погружение в стабильную видео-диффузию

Получайте мои блоги и другую интересную информацию в моем AI-рассылке, а также получайте бесплатные подарки, такие как мои секреты успеха на YouTube!

Смотреть видео

Что объединяет все последние мощные модели генерации изображений, такие как DALLE или Midjourney? Помимо высоких затрат на вычисления, длительного обучения и общего шумихи, все они основаны на одном и том же механизме: диффузии.

Модели диффузии являются передовыми результатами для большинства задач по работе с изображениями, включая преобразование текста в изображение с использованием DALLE, а также многие другие задачи, связанные с генерацией изображений, такие как заполнение пропусков в изображении, передача стиля или увеличение разрешения изображения.

Впоследствии появилась латентная диффузия, или хорошо известная стабильная диффузия, изменяющая все в области генерации изображений.

Но я здесь не для того, чтобы говорить об устаревших новостях. Мы здесь, чтобы рассмотреть новую статью и модель, выпущенные компанией Stability AI: Stable Video Diffusion. Самая новейшая и доступная модель генерации видео, которую вы можете использовать прямо сейчас! Она может автоматически генерировать крутые видео из изображений или текста. Она даже может использоваться для создания множества видов объекта, как будто он находится в трехмерном пространстве.

Я Луи из What’s AI, и давайте разберемся, как работает эта новая модель!

Видео, сгенерированное Stable Video Diffusion.

Прежде чем перейти к видео, обобщим, как работает Stable Diffusion для изображений.

Стабильная диффузия позволила сделать обучение и обработку изображений более эффективными и доступными, работая в сжатом или латентном пространстве, а не непосредственно с изображениями высокого разрешения. Этот подход предполагает кодирование входных данных (которыми могут быть текст или изображение) в пространство меньшей размерности. Это по сути означает, что модель обучается извлекать наиболее ценную информацию, так же как мы храним концепцию в нашем мозгу. Если вы видите изображение кошки или читаете слово “кошка”, оно имеет то же значение для вас. То же самое происходит с кодировками модели, где вся информация размещается в пространстве, которое…