AudioSep Разделите все, что вы описываете

AudioSep Разделите все, что вы описываете

LASS или Language-queried Audio Source Separation – новая парадигма CASA или вычислительного анализа звукового сценария, которая стремится разделить целевой звук из заданной смеси аудио с помощью естественного языкового запроса, который обеспечивает естественный, но масштабируемый интерфейс для цифровых задач и приложений аудио. Хотя фреймворки LASS значительно продвинулись за последние несколько лет в терминах достижения желаемой производительности по определенным аудиоисточникам, таким как музыкальные инструменты, они неспособны отделять целевое аудио в открытой сфере.

AudioSep – это основная модель, которая стремится разрешить текущие ограничения фреймворков LASS, позволяя отделять целевое аудио с использованием естественных языковых запросов. Разработчики фреймворка AudioSep обучили модель в значительной степени на разнообразных многомодальных наборах данных крупного масштаба и оценили производительность фреймворка на широком спектре аудиозадач, включая разделение музыкальных инструментов, разделение аудио-событий и улучшение речи среди многих других. Начальная производительность AudioSep удовлетворяет эталонам, поскольку демонстрирует впечатляющие способности к обучению без учителя и обеспечивает высокую производительность разделения аудио.

В данной статье мы подробно рассмотрим работу фреймворка AudioSep, оценим архитектуру модели, использованные для обучения и оценки данные и основные понятия, связанные с работой модели AudioSep. Итак, начнем с представления основных концепций CASA-фреймворка.

CASA, USS, QSS, фреймворки LASS: основа для AudioSep

Фреймворк CASA или вычислительного анализа звукового сценария является фреймворком, используемым разработчиками для проектирования систем прослушивания машин, способных воспринимать сложные звуковые среды так же, как люди воспринимают звук с помощью своих слуховых систем. Разделение звука, особенно целевого звука, является фундаментальной областью исследований в рамках фреймворка CASA, и оно направлено на решение проблемы “вечеринки”, т.е. разделение звукозаписей реальных звуковых сред окружающей среды на отдельные источники или файлы звуковых источников. Важность разделения звука можно объяснить его широкими применениями, включая разделение источников музыки, разделение аудиоисточников, улучшение речи, и многое другое.

Большая часть работ по разделению звука, проведенная в прошлом, сводится главным образом к разделению одного или нескольких аудиоисточников, таких как разделение музыки или разделение речи. Новая модель под названием USS или Universal Sound Separation направлена на разделение произвольных звуков в звукозаписях реального мира. Однако разделение каждого источника звука из аудиосмеси является сложной и ограниченной задачей, главным образом из-за широкого спектра различных звуковых источников, существующих в мире, что является главной причиной, по которой метод USS неприменим для приложений реального мира, работающих в реальном времени.

Возможной альтернативой к методу USS является метод QSS или Query-based Sound Separation, который направлен на разделение отдельного или целевого звукового источника из аудиосмеси на основе определенного набора запросов. Благодаря этому фреймворк QSS позволяет разработчикам и пользователям извлекать желаемые источники звука из смеси на основе их требований, что делает метод QSS более практичным решением для цифровых приложений реального мира, таких как редактирование мультимедийного контента или аудиоредактирование.

Более того, недавно разработчики предложили расширение метода QSS – фреймворк LASS или фреймворк Language-queried Audio Source Separation, который направлен на разделение произвольных источников звука из аудиосмеси с использованием естественноязыковых описаний целевого аудиоисточника. Поскольку фреймворк LASS позволяет пользователям извлекать целевые аудиоисточники с использованием набора естественноязыковых инструкций, он может стать мощным инструментом с широким спектром применений в цифровых аудиоприложениях. По сравнению с традиционными аудио- или видео-запросными методами использование естественноязыковых инструкций для разделения аудио предлагает больше преимуществ, добавляет гибкость, и делает получение информации из запроса более простым и удобным. Кроме того, по сравнению с фреймворками разделения аудио на основе меток, которые используют заранее определенный набор инструкций или запросов, фреймворк LASS не ограничивает количество входных запросов и имеет гибкость быть обобщенным в открытую область без проблем.

Изначально фреймворк LASS основывается на обучении с учителем, в котором модель обучается на наборе помеченных аудио-текстовых данных. Однако основная проблема этого подхода заключается в ограниченной доступности помеченных аудио-текстовых данных. Чтобы снизить зависимость фреймворка LASS от аудио-текстовых данных с пометками, модели обучаются с использованием подхода мультимодального наблюдения. Основная цель использования мультимодального подхода к наблюдению заключается в использовании моделей контрастного предварительного обучения с мультимодальными контрастами, таких как модель CLIP или модель контрастного языка изображений, в качестве кодировщика запросов для фреймворка. Поскольку фреймворк CLIP имеет способность выравнивать текстовые вложения с другими модальностями, такими как аудио или видео, он позволяет разработчикам обучать модели LASS, используя данные с богатыми модальностями, и позволяет взаимодействие с текстовыми данными в настройке с нулевым обучением. Однако текущие фреймворки LASS используют небольшие наборы данных для обучения, и применения фреймворка LASS в сотнях потенциальных областей еще предстоит исследовать.

Чтобы преодолеть текущие ограничения фреймворков LASS, разработчики представили AudioSep – основную модель, которая имеет целью отделять звук от аудиосмеси с использованием описаний на естественном языке. Текущим фокусом для AudioSep является разработка предварительно обученной модели разделения звука, которая использует существующие масштабные мультимодальные наборы данных для обеспечения обобщения моделей LASS в открытых приложениях. Для краткости, модель AudioSep можно описать как: “Основная модель для универсального разделения звука в открытой области с использованием запросов или описаний на естественном языке, обученных на масштабных аудио- и мультимодальных наборах данных“.

AudioSep: ключевые компоненты и архитектура

Архитектура фреймворка AudioSep включает две ключевые компоненты: текстовый энкодер и модель разделения.

Текстовый энкодер

Фреймворк AudioSep использует текстовый энкодер модели CLIP или Contrastive Language Image Pre Training или модели CLAP или Contrastive Language Audio Pre Training для извлечения текстовых эмбеддингов из запроса на естественном языке. Входной текстовый запрос состоит из последовательности «N» токенов, которые затем обрабатываются текстовым энкодером для извлечения текстовых эмбеддингов для данного языкового запроса. Текстовый энкодер использует стек блоков трансформера для кодирования входных текстовых токенов, и выходные представления агрегируются после их прохождения через слои трансформера, что приводит к разработке векторного представления фиксированной длины с размерностью D, где D соответствует размерностям моделей CLAP или CLIP, а текстовый энкодер замораживается во время периода обучения.

Модель CLIP предварительно обучена на масштабном наборе данных изображений и текстовых пар, используя контрастное обучение, поэтому ее текстовый энкодер научился отображать текстовые описания в семантическом пространстве, которое также разделяется визуальными представлениями. Преимущество, которое AudioSep получает при использовании текстового энкодера CLIP, заключается в том, что теперь LASS-модель может масштабироваться или обучаться на неразмеченных аудиовизуальных данных, используя визуальные эмбеддинги в качестве альтернативы, что позволяет обучать модели LASS без необходимости размеченных аудио-текстовых данных.

Модель CLAP работает аналогично модели CLIP и использует контрастную целевую функцию, поскольку она использует текстовый и аудио-энкодеры для связи аудио- и языка, объединяя текстовые и аудио-описания вместе в аудио-текстовом латентном пространстве.

Модель разделения

Фреймворк AudioSep использует модель ResUNet в частотной области, которая принимает аудиосмесь в качестве основы для разделения. Фреймворк работает путем применения STFT или кратковременного преобразования Фурье к звуковому сигналу для извлечения комплексного спектрограммы, амплитудного спектрограммы и фазы X. Затем модель следует тому же принципу и строит сеть энкодер-декодер для обработки амплитудной спектрограммы.

Сеть энкодер-декодер ResUNet состоит из 6 блоков остаточной сети, 6 блоков декодера и 4 блоков горлышка. Спектрограмма в каждом блоке энкодера использует 4 остаточных конволюционных блока для понижения частоты дискретизации и получения характеристик горлышка, тогда как блоки декодера используют 4 остаточных деконволюционных блока для получения компонент разделения путем повышения частоты дискретизации характеристик. После этого каждый блок энкодера и соответствующий блок декодера устанавливают связь, работающую с одной и той же скоростью повышения или понижения частоты дискретизации. Блок остаточной сети состоит из 2 слоев активации Leaky-ReLU, 2 слоев нормализации пакетов и 2 слоев CNN, и, кроме того, фреймворк также вводит дополнительный остаточный shortcut, который соединяет вход и выход каждого отдельного блока остаточной сети. Модель ResUNet принимает комплексную спектрограмму X на входе и производит маску амплитуды M на выходе, причем фазовое остаточное значение зависит от текстового эмбеддинга, который контролирует масштабирование и поворот угла спектрограммы. Отделенная комплексная спектрограмма может быть извлечена путем умножения предсказанной маски амплитуды и фазового остатка на STFT (кратковременное преобразование Фурье) смеси.

В своем фреймворке AudioSep использует слой FiLm или Feature-wise Linearly modulated для связи модели разделения и текстового энкодера после применения сверточных блоков в ResUNet.

Обучение и функция потерь

При обучении модели AudioSep разработчики используют метод увеличения громкости и обучают фреймворк AudioSep от начала до конца с использованием функции потерь L1 между истинными и предсказанными волновыми формами.

Наборы данных и бенчмарки

Как упоминалось в предыдущих разделах, AudioSep является базовой моделью, которая стремится устранить текущую зависимость моделей LASS от аннотированных наборов данных аудио-текст. Модель AudioSep обучается на широком наборе данных, чтобы оснастить ее возможностями мультимодального обучения, и вот подробное описание набора данных и бенчмарков, используемых разработчиками для обучения фреймворка AudioSep.

AudioSet

AudioSet – это слабо маркированный крупномасштабный аудио-набор данных, содержащий более 2 миллионов десяти секундных аудиофрагментов, извлеченных непосредственно с YouTube. Каждый аудиофрагмент в наборе данных AudioSet категоризирован по наличию или отсутствию звуковых классов без конкретных временных деталей звуковых событий. Набор данных AudioSet содержит более 500 различных аудио-классов, включая природные звуки, звуки человека, звуки транспорта и многое другое.

VGGSound

Набор данных VGGSound – это крупномасштабный визуально-аудио набор данных, который, подобно AudioSet, был источником прямо с YouTube, и он содержит более 200 000 видеоклипов, каждый продолжительностью 10 секунд. Набор данных VGGSound разделен на более 300 звуковых классов, включая звуки человека, природные звуки, звуки птиц и другие. Использование набора данных VGGSound гарантирует, что объект, ответственный за производство целевого звука, также описывается в соответствующем видеофрагменте.

AudioCaps

AudioCaps – это самый большой набор данных для описания аудио, доступный публично, и он включает более 50 000 аудиофрагментов длительностью 10 секунд, которые извлечены из набора данных AudioSet. Данные в AudioCaps разделены на три категории: обучающие данные, тестовые данные и проверочные данные, а аудиофрагменты человеком аннотированы с использованием описаний естественным языком с использованием платформы Amazon Mechanical Turk. Следует отметить, что в обучающем наборе данных каждый аудиофрагмент имеет одну подпись, в то время как в наборах для тестирования и проверки каждому аудиофрагменту соответствуют 5 верных подписей.

ClothoV2

ClothoV2 – это набор данных с описаниями аудиофрагментов, состоящий из фрагментов, полученных с платформы FreeSound, и так же, как AudioCaps, каждый аудиофрагмент человеком аннотирован с использованием описаний естественным языком с использованием платформы Amazon Mechanical Turk.

WavCaps

Подобно AudioSet, WavCaps – это слабо маркированный крупномасштабный набор данных аудиофрагментов, включающий более 400 000 аудиофрагментов с подписями, и общее время выполнения приближается к 7568 часам обучающих данных. Аудиофрагменты в наборе данных WavCaps берутся из широкого спектра аудио-источников, включая BBC Sound Effects, AudioSet, FreeSound, SoundBible и другие.

Детали обучения

Во время фазы обучения модель AudioSep случайным образом выбирает два аудиофрагмента из двух разных аудиофрагментов набора данных обучения, а затем смешивает их вместе, чтобы создать обучающую смесь, где длина каждого аудиофрагмента составляет около 5 секунд. Затем модель извлекает комплексный спектрограмму из волноформных сигналов с использованием окна Ханна размером 1024 с шагом 320.

Затем модель использует текстовый энкодер моделей CLIP/CLAP для извлечения текстовых эмбеддингов, при этом текстовое руководство является конфигурацией по умолчанию для AudioSep. Для модели разделения фреймворк AudioSep использует слой ResUNet, состоящий из 30 слоев, 6 блоков кодировщика и 6 блоков декодировщика, архитектура которого соответствует универсальному фреймворку разделения звука. Кроме того, каждый блок кодировщика имеет два сверточных слоя с размером ядра 3×3 и количество выходных признаковых карт блоков кодировщика составляет 32, 64, 128, 256, 512 и 1024 соответственно. Блоки декодировщика симметричны блокам кодировщика, и разработчики применяют оптимизатор Adam для обучения модели AudioSep с размером пакета 96.

Результаты оценки

На видимых наборах данных

На следующей фигуре сравнивается производительность фреймворка AudioSep на видимых наборах данных во время фазы обучения, включая обучающие наборы данных. Нижеприведенная фигура представляет результаты оценки бенчмарков фреймворка AudioSep по сравнению с базовыми системами, включая модели улучшения речи, LASS и CLIP. Модель AudioSep с текстовым энкодером CLIP представлена как AudioSep-CLIP, а модель AudioSep с текстовым энкодером CLAP представлена как AudioSep-CLAP.

Как видно на рисунке, фреймворк AudioSep хорошо справляется с аудиоописаниями или текстовыми метками в качестве входных запросов, и результаты показывают превосходную производительность фреймворка AudioSep по сравнению с предыдущими базовыми моделями LASS и моделями разделения звуков, запрашиваемых аудио.

На невидимых данных

Для оценки производительности AudioSep в нулевом режиме разработчики продолжали оценивать производительность на невидимых наборах данных, и фреймворк AudioSep обладает впечатляющей производительностью разделения в нулевом режиме, результаты представлены на рисунке ниже.

Кроме того, на рисунке ниже показаны результаты оценки модели AudioSep для улучшения речи Voicebank-Demand.

Оценка фреймворка AudioSep указывает на сильную и желаемую производительность на невидимых наборах данных в нулевом режиме, что открывает путь для выполнения задач звуковых операций на новых распределениях данных.

Визуализация результатов разделения

На нижеприведенном рисунке показаны результаты, полученные при использовании фреймворка AudioSep-CLAP для визуализации спектрограмм для звуковых источников изначальной цели, аудиосмесей и разделенных звуковых источников с помощью текстовых запросов разнообразных аудио или звуков. Результаты позволяют разработчикам заметить, что спектрограмма разделенного источника близка к изначально указанному источнику, что подтверждает полученные результаты экспериментов.

Сравнение текстовых запросов

Разработчики оценивают производительность AudioSep-CLAP и AudioSep-CLIP на AudioCaps Mini, и для этого они используют метки событий AudioSet, заголовки AudioCaps и реаннотированные естественные описания на естественном языке для изучения эффектов различных запросов, а следующий рисунок показывает пример использования AudioCaps Mini в действии.

Вывод

AudioSep – это базовая модель, разработанная с целью быть междоменной универсальной системой разделения звуков с использованием описаний на естественном языке. Как показали оценки, фреймворк AudioSep способен выполнять нулевое разделение звуков и без учителя, используя аудиоописания или текстовые метки в качестве запросов. Результаты и оценка производительности AudioSep свидетельствуют о сильной производительности, превосходящей текущие передовые модели разделения звуков, такие как LASS, и он может быть достаточно способен устранить текущие ограничения популярных моделей разделения звуков.