Исследователи из Национального университета Сингапура предлагают модель Show-1 гибридную искусственную нейронную сеть, которая сочетает пиксельные и латентные вариационные автоэнкодеры для генерации видео из текста.

Национальный университет Сингапура представляет модель Show-1 гибридную искусственную нейронную сеть, объединяющую пиксельные и латентные вариационные автоэнкодеры для создания видео по тексту.

Исследователи из Национального университета Сингапура представили модель Show-1, гибридную модель для генерации текста в видео, которая объединяет преимущества пиксельных моделей диффузии видео (VDM) и латентных моделей VDM. Пиксельные VDM требуют больших вычислительных ресурсов, а латентные VDM имеют проблемы с точной синхронизацией текста и видео. Show-1 предлагает новое решение. Сначала используется пиксельные VDM для создания видео низкого разрешения с сильной корреляцией текста и видео, а затем применяются латентные VDM для увеличения разрешения этих видео до высокого разрешения. Результатом являются видео высокого качества, эффективно созданные с точной синхронизацией, проверенные на стандартных бенчмарках генерации видео.

Их исследование представляет инновационный подход к генерации фотореалистичных видео по текстовым описаниям. Оно использует пиксельные VDM для создания начального видео, обеспечивая точную синхронизацию и передачу движения, а затем применяет латентные VDM для эффективного увеличения разрешения. Show-1 достигает лучшей производительности на наборе данных MSR-VTT, что делает его многообещающим решением.

Их подход представляет метод для создания очень реалистичных видео по текстовым описаниям. Он объединяет пиксельные VDM для точного начального создания видео и латентные VDM для эффективного увеличения разрешения. Подход Show-1 превосходит другие методы в достижении точной синхронизации текста и видео, передачи движения и экономичности.

Их метод использует как пиксельные, так и латентные VDM для генерации текста в видео. Пиксельные VDM обеспечивают точную синхронизацию текста и видео, а также передачу движения, в то время как латентные VDM эффективно выполняют увеличение разрешения. Обучение включает модели ключевых кадров, модели интерполяции, модели начального увеличения разрешения и модель текста в видео (t2v). Для обучения моделей ключевых кадров требуется три дня, а модели интерполяции и начального увеличения разрешения занимают по одному дню. Модель t2v тренируется с использованием экспертной адаптации в течение трех дней с использованием набора данных WebVid-10M.

Исследователи оценивают предложенный подход на наборах данных UCF-101 и MSR-VTT. Для набора данных UCF-101 Show-1 проявляет сильные возможности нулевого обучения по сравнению с другими методами, измеряемыми по метрике IS. Набор данных MSR-VTT превосходит модели последнего поколения по показателям FID-vid, FVD и CLIPSIM, что указывает на исключительную визуальную согласованность и семантическую связность. Эти результаты подтверждают способность Show-1 создавать высококачественные и фотореалистичные видео, превосходящие другие методы по оптическому качеству и пониманию содержания.

Show-1, модель, объединяющая пиксельные и латентные VDM, отличается точной генерацией текста в видео. Подход обеспечивает точную синхронизацию текста и видео, передачу движения и эффективное увеличение разрешения, повышая вычислительную эффективность. Оценка на наборах данных UCF-101 и MSR-VTT подтверждает их высокое качество изображения и семантическую связность, превосходя или соответствуя другим методам.

В дальнейших исследованиях следует более детально изучить объединение пиксельных и латентных VDM для генерации текста в видео, оптимизировать эффективность и улучшить синхронизацию. Следует исследовать альтернативные методы для улучшения синхронизации и передачи движения, а также оценивать различные наборы данных. Исследование передачи знаний и приспособляемости является важным. Повышение временной согласованности и исследование пользовательских исследований для реалистичного вывода и оценки качества является необходимостью для продвижения генерации текста в видео.