Эта научная статья предлагает «MotionDirector» искусственный интеллект для настраивания движения и внешнего вида видео.

Искусственный интеллект «MotionDirector» уникальный инструмент для создания потрясающих видео с идеальным движением и внешним видом

Модели диффузии текста в видео сделали значительные прогрессы в последнее время. Теперь пользователи могут создавать как реалистичные, так и фантастические видеоролики, просто предоставив текстовые описания. Эти основные модели также настроены на генерацию изображений, соответствующих определенным внешним видам, стилям и предметам. Однако все еще необходимо изучить возможность настройки движения в генерации текста в видео. Пользователи могут захотеть создать видеоролики с определенными движениями, например, автомобиль, движущийся вперед, а затем поворачивающий налево. Поэтому важно адаптировать модели диффузии для создания более конкретного контента, учитывая предпочтения пользователей.

Авторы этой статьи предложили MotionDirector, который помогает основным моделям достичь настройки движения, сохраняя разнообразие внешности. Техника использует двухпутевую архитектуру для обучения моделей распознавать внешний вид и движения в предоставленных отдельно видеороликах или нескольких видеороликах, что позволяет легко обобщить настраиваемое движение для других настроек.

Двусмысленная архитектура включает как пространственный, так и временной путь. Пространственный путь имеет основную модель с обучаемыми пространственными Ло-Рами (низкоранговыми адаптациями), интегрированными в слои трансформера для каждого видеоролика. Эти пространственные Ло-Ры обучаются с помощью случайно выбранного одного кадра на каждом шаге обучения для захвата визуальных атрибутов входных видеороликов. В отличие от этого, временной путь дублирует основную модель, используя пространственные Ло-Ры от пространственного пути для адаптации внешности заданного входного видеоролика. Более того, временные трансформеры в этом пути усилены временными Ло-Рами, которые обучаются с помощью нескольких кадров из видеороликов для овладения внутренними движениями.

Просто с использованием обученных временных Ло-Ров, основная модель может синтезировать видеоролики с изученными движениями и разнообразными внешними данными. Двухпутевая архитектура позволяет моделям изучать внешность и движение объектов в видеороликах отдельно. Это разделение позволяет MotionDirector изолировать внешность и движение видеороликов, а затем комбинировать их из различных источников видеороликов.

Исследователи сравнили производительность MotionDirector на нескольких бенчмарках, содержащих более 80 различных движений и 600 текстовых подсказок. На бенчмарке UCF Sports Action (с 95 видеороликами и 72 текстовыми подсказками) MotionDirector был предпочтен человеческими оценщиками около 75% времени за лучшую точность движения. Метод также опережает 25% предпочтений базовых моделей. На втором бенчмарке, LOVEU-TGVE-2023 (с 76 видеороликами и 532 текстовыми подсказками), MotionDirector показала лучшие результаты по сравнению с другими методами контролируемой и настраиваемой генерации. Результаты показывают, что с помощью MotionDirector можно настроить множество базовых моделей для создания видеороликов, отличающихся разнообразием и требуемыми концепциями движения.

MotionDirector – это многообещающий новый метод для адаптации моделей диффузии текста в видео для создания видеороликов с определенными движениями. Он отлично работает с изучением и адаптацией конкретных движений объектов и камер, и может использоваться для создания видеороликов в широком диапазоне визуальных стилей.

Одной из областей, где MotionDirector может быть улучшен, является изучение движения нескольких объектов в исходных видеороликах. Однако, даже с этим ограничением, MotionDirector обладает потенциалом для улучшения гибкости в генерации видеороликов, позволяя пользователям создавать видеоролики, соответствующие их предпочтениям и требованиям.