ByteDance представляет PixelDance новый подход к генерации видео на основе моделей распространения, который включает инструкции по изображениям вместе с текстовыми инструкциями.

PixelDance от ByteDance новый подход к генерации видео на основе моделей распространения с использованием инструкций по изображениям и текстуальным содержанием

Команда исследователей из ByteDance Research представляет PixelDance – подход к созданию видео, использующий текстовые и графические инструкции для создания видео с разнообразными и сложными движениями. Через этот метод исследователи демонстрируют эффективность своей системы, синтезируя видео с комплексными сценами и действиями, устанавливая новый стандарт в области создания видео. PixelDance превосходит другие модели своей способностью синтезировать видео с сложными настройками и активностями, превосходящими ограниченные движения, которые часто наблюдаются в существующих моделях. Данная модель распространяется на различные графические инструкции и объединяет временно согласованные видеоролики для создания составных снимков.

В отличие от моделей текст в видео, ограниченных простыми сценами, PixelDance использует графические инструкции для начального и конечного кадров, повышая сложность видео и позволяя генерировать более длинные видеоролики. Этот инновационный подход позволяет преодолеть ограничения в движении и деталях, наблюдаемые в предыдущих методах, особенно в случае контента, не относящегося к данной области. Уделяя внимание преимуществам графических инструкций, данная модель устанавливает PixelDance как решение для создания видео с высокой динамикой, сложными сценами, динамическими действиями и сложными движениями камеры.

Архитектура PixelDance интегрирует модели диффузии и вариационные автокодировщики для кодирования графических инструкций во входное пространство. Методы обучения и вывода сосредоточены на изучении динамики видео с использованием общедоступных видеоданных. PixelDance распространяется на различные графические инструкции, включая семантические карты, эскизы, позы и обрамляющие прямоугольники. В ходе качественного анализа оценивается влияние текста, первого кадра и последнего кадра на качество сгенерированного видео.

PixelDance показал лучшие результаты по метрикам FVD и CLIPSIM на наборах данных MSR-VTT и UCF-101 по сравнению с предыдущими моделями. Заблуждения на наборе данных UCF-101 демонстрируют эффективность компонентов PixelDance, таких как текст и инструкции для последнего кадра, при непрерывном создании видеороликов. Приводятся предложения по улучшению, включая обучение на высококачественных видеоданных, калибровку для конкретной области и масштабирование модели. PixelDance позволяет выполнять редактирование видео “из ничего”, превращая его в задачу редактирования изображений. Он демонстрирует впечатляющие количественные результаты по генерации высококачественных сложных видеороликов, соответствующих текстовым подсказкам на наборах данных MSR-VTT и UCF-101.

PixelDance превосходит по синтезу видеороликов высокого качества с комплексными сценами и действиями, превосходящими современные модели. Умение модели, работающей с текстовыми подсказками, показывает ее потенциал для развития в области генерации видео. Выявлены области для улучшения, включая калибровку для конкретной области и масштабирование модели. PixelDance вводит “редактирование видео из ничего”, превращая его в задачу редактирования изображений, и всегда создает временно согласованные видеоролики. Количественные оценки подтверждают его способность генерировать высококачественные сложные видеоролики на основе текстовых подсказок.

Надоложная на явные изображения и текстовые инструкции в PixelDance может ограничить обобщение к новым сценариям. Оценка в основном сосредоточена на количественных метриках, требующих более субъективной оценки качества. Влияние источников тренировочных данных и потенциальных предвзятостей не исследованы в должной мере. Тщательно должны обсуждаться масштабируемость, вычислительные требования и эффективность модели. Ограничения модели в обработке определенных типов видео, таких как высокодинамические сцены, все еще необходимо разъяснить. Распространяемость на различные области и задачи редактирования видео за рамками примеров должна быть подробно рассмотрена.

AI Shorts,Applications,Artificial Intelligence,Computer Vision,Editors Pick,Language Model

Гугл Бард теперь может делать резюме для вас видеороликов на YouTube

Эта статья по искусственному интеллекту представляет Lightning Cat инструмент на основе глубокого обучения для обнаружения уязвимостей смарт-контрактов.

PixelDance от ByteDance новый подход к генерации видео на основе моделей распространения с использованием инструкций по изображениям и текстуальным содержанием

Гугл Бард теперь может делать резюме для вас видеороликов на YouTube

Эта статья по искусственному интеллекту представляет Lightning Cat инструмент на основе глубокого обучения для обнаружения уязвимостей смарт-контрактов.

Познакомьтесь с LQ-LoRA Вариант LoRA, котор...

Создавайте гиперперсонализированные клиентс...

Постройте лояльность к бренду, рекомендуя д...

Amazon Transcribe объявляет о новой модели ...

Медицинская диагностика ИИ стала проще NVID...

Как эффективно обучать вашего малого земног...

Машинное обучение