Познакомьтесь с Mustango системой конвертации текста в музыку, основанной на диффузии и вдохновленной музыкальным доменным знанием, которая расширяет модель танго перевода текста в аудио.

Узнайте о Mustango системе, преобразующей текст в музыку через диффузию и вдохновленную музыкальными знаниями, расширяющую модель перевода текста в аудио в стиле танго.

В области синтеза текста в музыку качество генерируемого контента продвигается вперед, но управляемость музыкальными аспектами остается неисследованной. Команда исследователей из Университета технологий и дизайна Сингапура и Королевского университета Мэрри в Лондоне представила решение этой проблемы, named Mustango, который расширяет модель текста-в-аудио Tango, стремясь управлять созданной музыкой не только с общими текстовыми подписями, но и с более богатыми подписями, содержащими конкретные инструкции, относящиеся к аккордам, ритму, темпу и тональности.

Исследователи представляют Mustango как систему текст-в-музыку, вдохновленную знаниями о музыкальном домене, основанную на моделях диффузии. Они подчеркивают уникальные угрозы, связанные с генерацией музыки прямо из модели диффузии, подчеркивая необходимость баланса между соответствием условному тексту и музикальностью. Mustango позволяет музыкантам, продюсерам и звукорежиссерам создавать музыкальные клипы с определенными условиями, такими как ход аккордов, темп и выбор тональности.

В рамках Mustango исследователи предлагают MuNet, подмодуль UNet, основанный на знаниях о музыкальном домене. MuNet интегрирует музыкально-специфические особенности, предсказанные на основе текстового запроса, включая аккорды, ритм, тональность и темп, в процесс размытия диффузии. Чтобы преодолеть ограниченную доступность открытых наборов данных с музыкой и текстовыми подписями, исследователи предлагают новый метод аугментации данных. Этот метод включает изменение гармонических, ритмических и динамических аспектов звукозаписей и использование методов поиска информации о музыке для извлечения музыкальных особенностей, которые затем добавляются к существующим текстовым описаниям, что приводит к созданию набора данных MusicBench.

Набор данных MusicBench содержит более 52 000 экземпляров, обогащая исходные текстовые описания такими элементами, как ритм, местонахождение пониженных долей, ход аккордов, тональность и темп. Исследователи проводят обширные эксперименты, демонстрируя, что Mustango достигает штатной качества музыки. Они подчеркивают возможность управления Mustango с помощью определенных текстовых запросов, показывая превосходную производительность в отслеживании желаемых аккордов, ритма, тональности и темпа в различных наборах данных. Они оценивают приспособляемость этих предикторов в случаях, когда в запросе отсутствуют управляющие предложения, и замечают, что Mustango превосходит Tango в таких случаях, указывая на то, что управляющие предикторы не компрометируют производительность.

Эксперименты включают сравнение с базовыми моделями, такими как Tango, и вариантами Mustango, демонстрируя эффективность предложенного подхода аугментации данных в улучшении производительности. Mustango, обученная с нуля, признана лучшим исполнителем, превзойдя Tango и другие варианты по качеству звука, присутствию ритма и гармонии. У Mustango 1,4 миллиарда параметров, гораздо больше, чем у Tango.

В заключение исследователи представляют Mustango как значительный прогресс в синтезе текста в музыку. Они устраняют проблему управляемости в существующих системах и демонстрируют эффективность своего предложенного метода через эксперименты. Mustango не только достигает штатного качества музыки, но и обеспечивает расширенную управляемость, делая его ценным вкладом в область. Исследователи представляют набор данных MusicBench, предлагая ресурс для будущих исследований в области синтеза текста в музыку.