WavJourney Путешествие в мир генерации аудио сюжетов

WavJourney путешествие в мир генерации аудио сюжетов

 

Введение

 

Появление больших языковых моделей недавно потрясло мир. Теперь воображение не знает границ. Сегодня WavJourney может автоматизировать искусство рассказа историй. При задании одного промпта WavJourney использует мощь больших языковых моделей для генерации захватывающих аудиосценариев с точным сюжетом, живыми голосами людей и увлекательной фоновой музыкой.

Чтобы полностью понять возможности генерации аудио, рассмотрим следующий сценарий. Нам нужно только предоставить простую инструкцию, описывающую сценарий и настройку сцены, и модель создаст захватывающий аудиосценарий, подчеркивающий высокую релевантность контекста в отношении исходной инструкции.

ИНСТРУКЦИЯ: Сгенерируйте аудио в научно-фантастической тематике: новости о Марсе, сообщающие о том, что люди отправили зонд со скоростью света к Альфа Центавре. Начните с ведущего новостей, затем репортера, задающего вопросы главному инженеру из организации, построившей этот зонд, основанной Объединенной Землей и Марсианским Правительством, и закончите снова с ведущим новостей.

СГЕНЕРИРОВАННОЕ АУДИО: https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

Чтобы полностью понять внутреннее устройство этого чуда, давайте погрузимся глубже в методологию и детали реализации процесса генерации.

 

Процесс генерации

 

На рисунке ниже показан полный процесс в виде простой блок-схемы.

   

Процесс генерации аудио с начала до конца состоит из нескольких подмодулей, которые выполняются последовательно для полной модели текст-в-аудио.

 

Генерация аудиосценария

 

WavJourney использует модель GPT-4 с заранее определенным шаблоном промпта для генерации сценария. Шаблоны промптов ограничивают вывод в простом формате JSON, который легко можно разобрать позже компьютерной программой. Как показано на изображении выше, каждый сценарий имеет 3 различных типа аудио: речь, звуковые эффекты и музыка. Каждый тип аудио может быть выполнен как передний план или быть наложенным как фоновый звуковой эффект на другое аудио. Другие атрибуты, такие как описание содержания, длительность и персонаж, являются достаточными атрибутами для формального определения аудионастройки для генерации сценария.

 

Разбор сценария

 

Выходной сценарий затем проходит через компьютерную программу, которая разбирает соответствующую информацию из заранее определенного формата сценария JSON. Она ассоциирует каждое описание и персонажа с предопределенным аудио речи. Этот процесс помогает разбить процесс генерации аудио на отдельные шаги, включающие текст-в-речь, добавление музыки и звуков.

 

Генерация аудио

 

Разобранный сценарий выполняется как программа на языке Python. Сначала генерируется передний план речи, на который налагается фоновая музыка и звуковые эффекты. Для генерации речи модель использует предварительно обученную модель Bark и модель восстановления VoiceFixer для улучшения качества звука. Для звуковых эффектов и наложения музыки используются модели AudioLDM и MusicGen. Выходы всех трех моделей объединяются для получения конечного аудиовыхода.

 

Совместное творчество человека и машины

 

Процесс сохраняет контекст сгенерированных сценариев и может быть запущен аналогично моделям GPT. Вы можете легко изменить сгенерированный сценарий, используя обратную связь и возможности общения с людьми в моделях GPT.

Добавление конкретных деталей и звуковых эффектов никогда не было таким простым. На блок-схеме ниже показано, насколько просто добавлять или изменять конкретные детали сгенерированного сценария.

 

 

Заключение

 

Модель генерации аудио может изменить игру в индустрии развлечений. Процесс способен генерировать захватывающие повествования и истории, которые можно использовать в образовательных и развлекательных целях, автоматизируя утомительные процессы озвучивания и создания видео.

Для более подробного понимания ознакомьтесь с документом здесь. Код скоро будет доступен на GitHub.     Мухаммад Архам – инженер глубокого обучения, работающий в области компьютерного зрения и обработки естественного языка. Он работал над развертыванием и оптимизацией нескольких приложений искусственного интеллекта, которые достигли глобального успеха в Vyro.AI. Он заинтересован в создании и оптимизации моделей машинного обучения для интеллектуальных систем и верит в постоянное совершенствование.