ByteDance представляет PixelDance новый подход к генерации видео на основе моделей распространения, который включает инструкции по изображениям вместе с текстовыми инструкциями.

PixelDance от ByteDance новый подход к генерации видео на основе моделей распространения с использованием инструкций по изображениям и текстуальным содержанием

Команда исследователей из ByteDance Research представляет PixelDance – подход к созданию видео, использующий текстовые и графические инструкции для создания видео с разнообразными и сложными движениями. Через этот метод исследователи демонстрируют эффективность своей системы, синтезируя видео с комплексными сценами и действиями, устанавливая новый стандарт в области создания видео. PixelDance превосходит другие модели своей способностью синтезировать видео с сложными настройками и активностями, превосходящими ограниченные движения, которые часто наблюдаются в существующих моделях. Данная модель распространяется на различные графические инструкции и объединяет временно согласованные видеоролики для создания составных снимков.

В отличие от моделей текст в видео, ограниченных простыми сценами, PixelDance использует графические инструкции для начального и конечного кадров, повышая сложность видео и позволяя генерировать более длинные видеоролики. Этот инновационный подход позволяет преодолеть ограничения в движении и деталях, наблюдаемые в предыдущих методах, особенно в случае контента, не относящегося к данной области. Уделяя внимание преимуществам графических инструкций, данная модель устанавливает PixelDance как решение для создания видео с высокой динамикой, сложными сценами, динамическими действиями и сложными движениями камеры.

Архитектура PixelDance интегрирует модели диффузии и вариационные автокодировщики для кодирования графических инструкций во входное пространство. Методы обучения и вывода сосредоточены на изучении динамики видео с использованием общедоступных видеоданных. PixelDance распространяется на различные графические инструкции, включая семантические карты, эскизы, позы и обрамляющие прямоугольники. В ходе качественного анализа оценивается влияние текста, первого кадра и последнего кадра на качество сгенерированного видео.

PixelDance показал лучшие результаты по метрикам FVD и CLIPSIM на наборах данных MSR-VTT и UCF-101 по сравнению с предыдущими моделями. Заблуждения на наборе данных UCF-101 демонстрируют эффективность компонентов PixelDance, таких как текст и инструкции для последнего кадра, при непрерывном создании видеороликов. Приводятся предложения по улучшению, включая обучение на высококачественных видеоданных, калибровку для конкретной области и масштабирование модели. PixelDance позволяет выполнять редактирование видео “из ничего”, превращая его в задачу редактирования изображений. Он демонстрирует впечатляющие количественные результаты по генерации высококачественных сложных видеороликов, соответствующих текстовым подсказкам на наборах данных MSR-VTT и UCF-101.

PixelDance превосходит по синтезу видеороликов высокого качества с комплексными сценами и действиями, превосходящими современные модели. Умение модели, работающей с текстовыми подсказками, показывает ее потенциал для развития в области генерации видео. Выявлены области для улучшения, включая калибровку для конкретной области и масштабирование модели. PixelDance вводит “редактирование видео из ничего”, превращая его в задачу редактирования изображений, и всегда создает временно согласованные видеоролики. Количественные оценки подтверждают его способность генерировать высококачественные сложные видеоролики на основе текстовых подсказок.

Надоложная на явные изображения и текстовые инструкции в PixelDance может ограничить обобщение к новым сценариям. Оценка в основном сосредоточена на количественных метриках, требующих более субъективной оценки качества. Влияние источников тренировочных данных и потенциальных предвзятостей не исследованы в должной мере. Тщательно должны обсуждаться масштабируемость, вычислительные требования и эффективность модели. Ограничения модели в обработке определенных типов видео, таких как высокодинамические сцены, все еще необходимо разъяснить. Распространяемость на различные области и задачи редактирования видео за рамками примеров должна быть подробно рассмотрена.