Познакомьтесь с WavJourney AI-фреймворком для композиционного создания звукового контента с использованием больших моделей языка.

Знакомьтесь с WavJourney AI-фреймворком для создания звукового контента с помощью больших моделей языка.

Новое направление в области мультимодального искусственного интеллекта (ИИ) совмещает визуальные, слуховые и текстовые данные, предлагая захватывающие возможности в различных областях, от персонализированного развлечения до улучшенных функций доступности. Как мощный посредник, естественный язык обещает улучшить понимание и коммуникацию в различных сенсорных областях. Большие языковые модели (LLM) проявили впечатляющие возможности в качестве агентов, сотрудничая с различными моделями ИИ для решения мультимодальных задач.

Хотя LLM ценятся за их эффективность в решении мультимодальных задач, возникает вопрос о фундаментальных возможностях этих моделей: могут ли они также служить создателями динамического мультимедийного контента? Создание мультимедийного контента включает в себя производство цифровых медиа в различных формах, таких как текст, изображения и аудио. Аудио, важная составляющая мультимедиа, не только обеспечивает контекст и эмоцию, но также способствует погружающему опыту.

Прошлые усилия использовали генеративные модели для синтеза аудио-контекста на основе конкретных условий, таких как описания речи или музыки. Однако эти модели часто испытывают трудности в генерации разнообразного аудио-контента за пределами этих условий, что ограничивает их применимость в реальном мире. Создание композиционного аудио представляет собой сложную задачу из-за сложностей в генерации сложных звуковых сцен. Использование LLM для этой задачи предполагает решение таких проблем, как контекстное понимание и проектирование, аудио-производство и композиция, а также создание интерактивных и интерпретируемых пайплайнов для взаимодействия человека и машины.

Основываясь на вышеупомянутых проблемах и вызовах, была предложена новая система под названием WavJourney. Ее обзор представлен на схеме ниже.

WavJourney использует LLM для создания композиционного аудио, управляемого языковыми инструкциями. Эта техника побуждает LLM генерировать аудио-сценарии, соответствующие предопределенным структурам, охватывающим речь, музыку и звуковые эффекты. Эти сценарии тщательно учитывают пространственно-временные отношения между этими акустическими элементами. Решая сложные звуковые сцены, WavJourney разбирает их на отдельные звуковые компоненты и соответствующие акустические компоновки. Этот аудио-сценарий затем подается на вход компилятору сценариев, что приводит к созданию компьютерной программы, где каждая строка кода соответствует вызову моделей генерации аудио, функций ввода/вывода аудио или вычислительных операций, специфичных для задачи. Затем эта программа выполняется для генерации желаемого аудио-контента.

Дизайн WavJourney предлагает несколько заметных преимуществ. Во-первых, он использует понимание и обширные знания LLM для создания аудио-сценариев с разнообразными звуковыми элементами, сложными акустическими связями и увлекательными аудио-рассказами. Во-вторых, он применяет композиционную стратегию, разбивая сложные звуковые сцены на отдельные звуковые элементы. Это позволяет включать разнообразные модели генерации аудио, специфичные для задачи, для создания контента, что отличает его от методов с конца в конец, которые часто затрудняют учет всех элементов, описанных в тексте. В-третьих, WavJourney работает без необходимости обучения аудио-моделей или настройки LLM, что оптимизирует использование ресурсов. Наконец, он облегчает совместное создание человеком и машиной аудио-контента в реальном мире.

Примеры результатов, выбранные из исследования, показаны на изображении ниже. Эти кейс-стади предоставляют сравнительный обзор между WavJourney и передовыми методами генерации.

Это было краткое изложение WavJourney, новой AI-структуры, которая использует LLM для создания композиционного аудио, направляемого языковыми инструкциями. Если вас интересует и вы хотите узнать больше об этом, пожалуйста, обратитесь к указанным ниже ссылкам.