Исследователи из Университета Калифорнии в Беркли и Университета Калифорнии в Сан-Франциско революционизируют генерацию нейронных видео вводят метод LLM-Grounded Video Diffusion (LVD) для улучшенной пространственно-временной динамики.

Революционеры из Университета Калифорнии в Беркли и Университета Калифорнии в Сан-Франциско преображают генерацию нейронных видео с помощью метода LLM-Grounded Video Diffusion (LVD) для улучшения пространственно-временной динамики.

В ответ на вызовы, с которыми сталкиваются при генерации видео на основе текстовых подсказок, команда исследователей представила новый подход, называемый LVD – LLM-поддерживаемая диффузия видео. Основной проблемой является то, что существующие модели борются с созданием видео, которые точно отражают сложную пространственно-временную динамику, описанную в текстовых подсказках.

Чтобы дать контекст, генерация видео на основе текста является сложной задачей, поскольку она требует создания видео исключительно на основе текстовых описаний. В ходе решения этой проблемы были предприняты попытки, но они часто не справляются с созданием видео, которые хорошо соответствуют заданным подсказкам в терминах пространственных раскладок и временной динамики.

Однако LVD применяет иной подход. Вместо прямой генерации видео из текстовых входов он сначала использует Large Language Models (LLMs, модели больших языков) для создания динамических сценарных макетов (DSLs) на основе текстовых описаний. Эти DSLs по существу являются чертежами или руководствами для последующего процесса генерации видео.

Особенно интересным является то, что исследователи обнаружили, что LLMs обладают удивительной способностью генерировать DSLs, которые не только улавливают пространственные отношения, но и сложную временную динамику. Это критически важно для создания видео, которые точно отражают реальные сценарии, основываясь только на текстовых подсказках.

Для более конкретизации этого процесса LVD предлагает алгоритм, который использует DSLs для управления генерацией пространственных отношений на уровне объектов и временной динамики в моделях диффузии видео. Чрезвычайно важно отметить, что данному методу не требуется обширное обучение; это подход без обучения, который может быть интегрирован в различные модели диффузии видео, способные к руководству классификатором.

Результаты LVD являются весьма замечательными. В значительной степени он превосходит базовую модель диффузии видео и другие сильные методы базового уровня в терминах генерации видео, которые верно соответствуют желаемым свойствам и движениям, описанным в текстовых подсказках. Сходство между текстом и сгенерированным видео с использованием LVD составляет 0,52. Не только схожесть между текстом и видео, но и качество видео превышает другие модели.

В заключение, LVD – это прорывной подход к генерации видео на основе текстовых подсказок, который использует силу LLMs для создания динамических сценарных макетов, что в конечном итоге улучшает качество и достоверность видео, созданных из сложных текстовых подсказок. Этот подход имеет потенциал открыть новые возможности в различных областях применения, таких как создание контента и генерация видео.