Стабильная видео-диффузия латентные модели видео-диффузии для больших наборов данных

Эффективная видео-диффузия использование латентных моделей видео-диффузии в больших наборах данных

Генеративный искусственный интеллект является движущей силой в сообществе искусственного интеллекта уже некоторое время, и прогресс, достигнутый в области генеративного моделирования изображений, особенно с использованием моделей диффузии, значительно помог прогрессу генеративных видеомоделей не только в исследованиях, но и в реальных приложениях. Традиционно генеративные видеомодели обучаются с нуля или частично/полностью переобучаются с предварительно обученных моделей изображений с дополнительными временными слоями на смеси наборов изображений и видео.

Наследуя прогресс в генеративных видеомоделях, в этой статье мы поговорим оМодели Стабильной Диффузии Видео, латентной видео диффузионной модели, способной генерировать высококачественное видео на основе изображений и текста. Мы рассмотрим, как латентные модели диффузии, обученные для синтеза двухмерных изображений, улучшили возможности и эффективность генеративных видеомоделей, добавив временные слои и дообучив модели на небольших наборах видео высокого качества. Мы проведем более глубокое исследование архитектуры и работы Модели Стабильной Диффузии Видео, оценим ее производительность по различным метрикам и сравним ее с современными фреймворками для генерации видео. Итак, приступим.

Модель Стабильной Диффузии Видео и Генеративные Видеомодели: Введение

Благодаря своим почти неограниченным возможностям, генеративный искусственный интеллект является основным объектом исследований в области искусственного интеллекта и машинного обучения уже некоторое время, и за последние несколько лет были сделаны быстрые прогрессы как в отношении эффективности, так и производительности генеративных моделей изображений. Уроки, извлеченные из генеративных моделей изображений, позволили исследователям и разработчикам продвинуться в области генеративных видеомоделей, что привело к улучшению их практической применимости и применений в реальном мире. Однако большинство исследований, направленных на улучшение возможностей генеративных видеомоделей, сосредоточены в основном на точном расположении временных и пространственных слоев, при этом мало внимания уделяется изучению влияния выбора правильных данных на результаты работы этих генеративных моделей.

Благодаря прогрессу, достигнутому моделями генеративных изображений, исследователи обнаружили, что влияние распределения обучающих данных на производительность генеративных моделей на самом деле значительно и неоспоримо. Кроме того, исследователи также обнаружили, что предварительное обучение генеративной модели изображения на большом и разнообразном наборе данных, а затем дообучение ее на небольшом наборе данных с более высоким качеством, часто приводит к значительному улучшению производительности. Традиционно генеративные видеомодели реализуют принципы, полученные из успешных генеративных моделей изображений, и исследования по изучению эффекта данных и стратегий обучения все еще предстоит провести. Модель Стабильной Диффузии Видео пытается улучшить возможности генеративных видеомоделей, затрагивая ранее неизведанные области, с особым акцентом на выборе данных.

Недавние генеративные видеомодели полагаются на модели диффузии и подходы с учетом текста или изображения для синтеза нескольких последовательных кадров видео или изображений. Модели диффузии известны своей способностью учиться постепенно устранять шум из образца из нормального распределения, реализуя итеративный процесс уточнения, и они показали желаемые результаты в высокоразрешающих видео и синтезе текста в изображение. Используя тот же принцип в основе, Модель Стабильной Диффузии Видео обучает латентную видео диффузионную модель на своем наборе видео вместе с использованием генеративно-состязательных сетей (GAN) и даже авторегрессионных моделей в некоторой степени.

Модель Стабильной Диффузии Видео следует уникальной стратегии, которая ранее не была реализована ни одной генеративной видеомоделью, поскольку она полагается на латентные видео диффузионные базовые линии с фиксированной архитектурой и фиксированной стратегией обучения, за которой следует оценка влияния курирования данных. Модель Стабильной Диффузии Видео стремится сделать следующий вклад в области генеративного моделирования видео:

  1. Представить систематический и эффективный рабочий процесс курирования данных в попытке превратить большую коллекцию несортированных видеопримеров в высококачественный набор данных, используемый генеративными видеомоделями.
  2. Обучить передовые модели изображения в видео и текста в видео, превосходящие существующие фреймворки.
  3. Провести эксперименты, специфичные для области, для изучения трехмерного понимания и сильного предпочтения движения модели.

Теперь Модель Стабильной Диффузии Видео воплощает уроки от Модели Латентной Видео Диффузии и от техник Курирования Данных в сердце своего фундамента.

Модели латентной диффузии видео

Модели латентной диффузии видео или Video-LDM следуют подходу тренировки первичной генеративной модели в латентном пространстве с уменьшенной вычислительной сложностью, и большинство Video-LDM реализует предварительно обученную модель текста к изображению, связанную с добавлением временных слоев смешивания в архитектуре предварительного обучения. В результате большинство моделей латентной диффузии видео обучают только временные слои или полностью пропускают процесс обучения, в отличие от стабильной модели латентной диффузии видео, которая донастраивает всю структуру фреймворка. Кроме того, для синтеза текста в видео данные стабильная модель латентной диффузии видео непосредственно основывается на текстовой подсказке, и результаты показывают, что полученная структура может легко донастраиваться для многопредставленного синтеза или модели изображения в видео.

Кураторство данных

Кураторство данных является неотъемлемой составляющей не только стабильной модели латентной диффузии видео, но и генеративных моделей в целом, поскольку важно предварительно обучать большие модели на масштабных наборах данных для улучшения результатов в различных задачах, включая языковое моделирование или дискриминативную генерацию текста к изображению и многое другое. Кураторство данных было успешно реализовано на генеративных моделях изображений, используя возможности эффективных языково-изображенческих представлений, хотя такие обсуждения никогда не были фокусом в разработке генеративных видеомоделей. Разработчики сталкиваются с несколькими трудностями, когда подбирают данные для генеративных видеомоделей, и чтобы решить эти проблемы, модель стабильной диффузии видео реализует трехэтапную стратегию обучения, что приводит к улучшению результатов и значительному повышению производительности.

Кураторство данных для создания высококачественного видеосинтеза

Как было отмечено ранее, стабильная модель латентной диффузии видео реализует трехэтапную стратегию обучения, что приводит к улучшению результатов и значительному повышению производительности. Этап I – это предварительное обучение изображения, которое использует 2D модель диффузии текста к изображению. Этап II предназначен для предварительного обучения видео, на котором фреймворк тренируется на большом объеме видеоданных. Наконец, у нас есть этап III для донастройки видео, на котором модель улучшается на небольшом наборе видео высокого качества и высокого разрешения.

Однако, перед тем, как стабильная модель латентной диффузии видео приступает к этим трем этапам, очень важно обработать и прокомментировать данные, так как они служат основой для этапа II или этапа предварительного обучения видео и играют критическую роль в обеспечении оптимального результата. Для обеспечения максимальной эффективности фреймворк сначала реализует пайплайн каскадного обнаружения разрезов на 3 разных уровнях частоты кадров (FPS), а необходимость в этом пайплайне демонстрируется на следующей картинке.

Затем стабильная модель латентной диффузии видео прокомментирует каждый видеоклип, используя три различных метода синтеза подписей. Следующая таблица сравнивает наборы данных, используемые в стабильной модели диффузии до и после процесса фильтрации.

Этап I: Предварительное обучение изображения

Первый этап трехэтапного пайплайна, реализованного в стабильной модели латентной диффузии видео, является предварительным обучением изображения, и для достижения этой цели начальный фреймворк стабильной модели латентной диффузии видео основывается на предварительно обученной модели диффузии изображений, а именно модели Stable Diffusion 2.1, которая предоставляет ему более сильные визуальные представления.

Этап II: Предварительное обучение видео

Второй этап – это этап предварительного обучения видео, который основывается на выводах, что использование кураторства данных в мультимодальных генеративных моделях изображений часто приводит к лучшим результатам и повышает эффективность вместе с мощной дискриминативной генерацией изображений. Однако благодаря отсутствию подобных мощных готовых представлений, позволяющих отфильтровать нежелательные примеры для генеративных видеомоделей, стабильная модель латентной диффузии видео полагается на предпочтения людей в качестве входных сигналов для создания подходящего набора данных, используемого для предварительного обучения фреймворка. Следующая фигура демонстрирует положительный эффект предварительного обучения фреймворка на подготовленном наборе данных, которое помогает повысить общую производительность предварительного обучения видео на небольших наборах данных.

Для более конкретного указания, фреймворк использует различные методы для кураторства подмножеств Латентного видео Диффузии и учитывает рейтинг моделей LVD, обученных на этих наборах данных. Кроме того, фреймворк Stable Video Diffusion также находит, что использование отобранных наборов данных для обучения фреймворков способствует повышению производительности фреймворка и моделей диффузии в целом. Кроме того, стратегия кураторства данных также работает с более крупными, более актуальными и высокоэффективными наборами данных. Ниже представлена диаграмма, демонстрирующая положительный эффект предварительного обучения фреймворка на отобранном наборе данных, что помогает улучшить общую производительность предварительного обучения видео на более маленьких наборах данных.

Этап III: Качественная настройка

До этапа II фреймворк Stable Video Diffusion сосредоточен на улучшении производительности перед предварительным обучением видео, и на третьем этапе внимание фреймворка сосредоточено на оптимизации или дальнейшем повышении производительности фреймворка после качественной настройки видео и о том, как достигается переход от этапа II к этапу III в фреймворке. На этапе III фреймворк использует методы обучения, взятые из моделей диффузии скрытых изображений, и увеличивает разрешение примеров обучения. Для анализа эффективности данного подхода, фреймворк сравнивает его с тремя идентичными моделями, отличающимися только инициализацией. Первая идентичная модель имеет инициализированные весы, и процесс тренировки видео пропускается, в то время как оставшиеся две идентичные модели инициализируются весами, взятыми из других скрытых видео моделей.

Результаты и выводы

Пришло время посмотреть, как фреймворк Stable Video Diffusion выполняет задачи в реальных условиях и как он сравнивается с современными фреймворками. Фреймворк Stable Video Diffusion сначала использует оптимальный подход к обучению базовой модели, а затем проводит качественную настройку для создания нескольких современных моделей, где каждая модель выполняет определенную задачу.

Выше приведено изображение высокого разрешения, сгенерированное фреймворком, а следующая диаграмма демонстрирует способность фреймворка генерировать высококачественные примеры текста в видео.

Предварительно обученная базовая модель

Как уже обсуждалось ранее, модель Stable Video Diffusion построена на фреймворке Stable Diffusion 2.1, и на основании последних результатов было важно для разработчиков принять шумовое расписание и увеличить шум для получения изображений с лучшим разрешением при обучении моделей диффузии изображений. Благодаря этому подходу базовая модель стабильной видео диффузии изучает мощные движения, и в процессе превосходит базовые модели для генерации видео из текста в нулевом тесте, и результаты отображены в следующей таблице.

Интерполяция кадров и генерация множественных видов

Фреймворк Stable Video Diffusion донастраивает модель изображения в видео на многовидовых наборах данных, чтобы получить несколько новых видов объекта, и эта модель известна как SVD-MV или Модель стабильной видео диффузии – Множественный вид. Оригинальная модель SVD донастраивается с помощью двух наборов данных таким образом, что фреймворк подает на вход одно изображение и возвращает последовательность многовидовых изображений в качестве выхода.

Как видно на следующих изображениях, фреймворк стабильной видео диффузии с множественным видом обеспечивает высокую производительность, сопоставимую со современным фреймворком Scratch Multi View, и результаты являются явным доказательством способности SVD-MV использовать полученные из оригинальной модели SVD знания для генерации многовидовых изображений. Кроме того, результаты также указывают на то, что выполнение модели для относительно небольшого числа итераций помогает достичь оптимальных результатов, как и в случае с большинством моделей, донастраиваемых из фреймворка SVD.

На указанной выше фигуре метрики указаны слева, и, как видно, стабильная многопроекционная диффузионная модель видео превосходит модели Scratch-MV и SD2.1 Multi-View с большим отрывом. Второе изображение демонстрирует влияние количества итераций тренировки на общую производительность модели с точки зрения Clip Score, и многопроекционные диффузионные модели видео доставляют устойчивые результаты.

Заключительные мысли

В этой статье мы говорили о стабильном диффузионном видео, модели латентной диффузии видео, способной генерировать высококачественный видеоконтент изображений и текста. Модель стабильной видеодиффузии следует уникальной стратегии, никогда не реализованной ни одной моделью генеративного видео, так как она опирается на латентные базовые диффузионные видео с фиксированной архитектурой и фиксированной стратегией обучения, а также осуществляет оценку влияния отборки данных.

Мы говорили о том, как модели латентной диффузии, обученные на создание 2D изображений, улучшили возможности и эффективность генеративных видеомоделей, добавив временные слои и тонкую настройку моделей на небольших наборах данных, состоящих из высококачественных видео. Для сбора данных предварительного обучения модель проводит масштабирование и следует систематическим методам сбора данных, а затем предлагает метод отбора большого объема видеоданных и преобразования шумных видео во входные данные, пригодные для генеративных видеомоделей.

Кроме того, модель стабильной видеодиффузии применяет три различных этапа тренировки видеомоделей, которые анализируются независимо для оценки их влияния на производительность модели. В результате модель выдает достаточно мощное представление видео для оптимального синтеза моделей, и результаты сравнимы с уже используемыми передовыми моделями генерации видео.