ByteDance AI Research представляет StemGen модель глубокого обучения по генерации музыки, обученная слушать музыкальный контекст и адекватно отвечать на него.

ByteDance AI Research представляет StemGen модель глубокого обучения, которая генерирует музыку, может слушать музыкальный контекст и адекватно отвечать на него

“`html

Генерация музыки с использованием глубокого обучения включает в себя тренировку моделей для создания музыкальных композиций, имитирующих паттерны и структуры, присутствующие в существующей музыке. Часто используются методы глубокого обучения, такие как RNN, LSTM-сети и модели-трансформеры. В данном исследовании исследуется инновационный подход к генерации музыкального аудио с использованием неавторегрессионных, основанных на трансформерах моделей, способных реагировать на музыкальный контекст. В отличие от существующих моделей, которые полагаются на абстрактное кондиционирование, данная новая парадигма акцентирует внимание на прослушивании и реагировании. В исследовании учтены самые последние достижения в данной области и обсуждаются улучшения, внесенные в архитектуру.

Исследователи из SAMI, ByteDance Inc., представляют неавторегрессионную модель, основанную на трансформерах, которая способна слушать и реагировать на музыкальный контекст, используя доступный публично кодировочный шаг для модели MusicGen. Оценка проводится с помощью стандартных метрик и подхода музыкального поиска информации, включая Frechet Audio Distance (FAD) и Music Information Retrieval Descriptor Distance (MIRDD). Результативная модель демонстрирует конкурентоспособное качество звука и надежную музыкальную выверенность в контексте, подтвержденные объективными метриками и субъективными тестами MOS.

Исследование подчеркивает последние достижения в генерации музыкального аудио с использованием глубокого обучения, заимствуя методы из обработки изображений и языковой обработки. Оно акцентирует внимание на проблеме выравнивания частей в музыкальной композиции и критикует существующие модели, полагающиеся на абстрактное кондиционирование. В исследовании предлагается подход к тренировке, использующий неавторегрессионную модель на базе трансформера для реагирования на музыкальный контекст. Вводятся два источника кондиционирования и проблема формулируется как условная генерация. Для оценки модели необходимо использовать объективные метрики, дескрипторы музыкального поиска информации и тестирование прослушивания.

Метод использует неавторегрессионную модель на базе трансформера для генерации музыки и включает резидуальный векторный кодировщик в отдельную модель для кодирования аудио. Он объединяет несколько аудио-каналов в один элемент последовательности с помощью конкатенированных вложений. Тренировка осуществляется с использованием процедуры маскирования, и при выборке токенов для улучшения выровненности аудио контекста используется руководство без классификатора. Объективные метрики оценивают производительность модели, включая Fr’echet Audio Distance и Music Information Retrieval Descriptor Distance. В оценку включается генерация и сравнение примеров с реальными частями с использованием различных метрик.

В исследовании оцениваются созданные модели с использованием стандартных метрик и подхода музыкального поиска информации, включая FAD и MIRDD. Сравнение с реальными частями показывает, что модели достигают качества звука, сравнимого с современными моделями, основанными на тексте, и демонстрируют прочную музыкальную связность с контекстом. Тест с Оценкой Среднего Мнения с участием музыкально подготовленных участников дополнительно подтверждает способность модели порождать правдоподобные музыкальные результаты. MIRDD, оценивающий распределительное соответствие созданных и реальных частей, предоставляет меру музыкальной связности и выровненности.

В заключении, проведенное исследование может быть описано следующими пунктами:

  • Исследование предлагает новый подход к тренировке генеративных моделей, способных реагировать на музыкальный контекст.
  • Подход вводит неавторегрессионную модель языка с основой на трансформерах и два новых улучшения: многоканальное руководство без использования классификатора и причинный биас во время итеративного декодирования.
  • Модели достигают качества звука, не уступающего state-of-the-art моделям, тренируясь на открытых и официальных датасетах.
  • Стандартные метрики и подход музыкального поиска информации подтверждают качество звука, не уступая state-of-the-art моделям.
  • Тест со средней оценкой мнения подтверждает способность модели порождать реалистичные музыкальные результаты.

“`