Исследователи из UCL и Google предлагают AudioSlots слот-центрическую генеративную модель для разделения источников звука в аудио-домене без информации о источниках.

Исследователи из UCL и Google предлагают модель AudioSlots для разделения звуковых источников без информации о них.

Использование нейронных сетей в архитектурах, работающих с структурированными данными и обучающихся отображать неструктурированные входы в пространства структурированных выводов, недавно получило большое внимание. Недавние разработки в области идентификации объектов и безнадзорного обнаружения объектов, особенно в области зрения, поддерживаются слот-центричными или объектно-центричными системами. Эти объектно-центричные архитектуры хорошо подходят для аудио-разделения благодаря своему врожденному индуктивному смещению перестановки. Целью данной работы является применение ключевых концепций из этих архитектур для разделения аудиоисточников из смешанных аудиосигналов без доступа к внутренней информации о источниках или процессе смешивания.

Рисунок 1: Обзор архитектуры: спектрограмма создается после обрезки входной волны. Затем нейронная сеть кодирует спектрограмму в набор перестановочно-инвариантных вложений источников (s1…n), которые затем декодируются для создания набора отдельных спектрограмм источников. Функция потери, инвариантная к перестановке на основе совпадения, контролирует всю передачу данных с использованием спектрограммы источника истины.

Разделение звука – это задача на основе набора, поскольку порядок источников является случайным. Изучается отображение от спектрограммы смешанного аудио на неупорядоченный набор отдельных спектрограмм источников, и проблема разделения звука формулируется как проблема условного генеративного моделирования, инвариантного относительно перестановки. С помощью своей техники AudioSlots аудио разделяется на отдельные скрытые переменные для каждого источника, которые затем декодируются для предоставления специфических для источника спектрограмм. Она создается с использованием функций кодировщика и декодировщика на основе архитектуры Трансформера. Она является перестановочно-эквивариантной, что делает ее независимой от упорядочивания скрытых переменных источника (также известных как “слоты”). Они обучают AudioSlots с использованием функции потери, основанной на совпадении, чтобы получить независимые источники из смешанного аудиовхода для оценки потенциала такой архитектуры.

Исследователи из Университетского колледжа Лондона и исследовательского центра Google представляют AudioSlots, генеративную архитектуру для спектрограмм аудио с использованием слотов. Они предоставляют доказательства того, что AudioSlots предлагает потенциал для использования структурированных генеративных моделей для решения проблемы разделения источников аудио. Хотя у их текущей реализации AudioSlots есть несколько недостатков, таких как низкое качество восстановления для высокочастотных характеристик и необходимость отдельных аудиоисточников в качестве наблюдения, они уверены, что эти проблемы могут быть решены, и предлагают несколько потенциальных направлений для дальнейших исследований.

Они демонстрируют свою методологию на простой задаче разделения голосов двух дикторов из набора данных Libri2Mix. Они обнаружили, что разделение звука с использованием слот-центричных генеративных моделей обещает, но сопровождается некоторыми трудностями: версия их модели, которая представлена, испытывает трудности в генерации деталей высоких частот, полагаясь на эвристику для соединения независимо предсказанных аудиочастей, и все еще требует исходных аудиоисточников для обучения. В своей будущей работе, в которой они предлагают возможные маршруты в своем исследовании, они оптимистичны, что эти трудности могут быть устранены. Тем не менее, их результаты в основном служат доказательством концепции этой идеи.

Ознакомьтесь с Документом. Не забудьте присоединиться к нашей группе AI Tools ClubDiscord и рассылке по электронной почте, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами по искусственному интеллекту и многим другим. Если у вас есть вопросы по поводу вышеприведенной статьи или если мы что-то пропустили, не стесняйтесь писать нам по адресу Asif@marktechpost.com

Ознакомьтесь с 100 AI-инструментами в AI Tools Club

Статья “Исследователи из UCL и Google предлагают AudioSlots: слот-центричную генеративную модель для разделения источников аудиодомена” была опубликована на MarkTechPost.