ByteDance AI Research представляет StemGen модель глубокого обучения по генерации музыки, обученная слушать музыкальный контекст и адекватно отвечать на него.
ByteDance AI Research представляет StemGen модель глубокого обучения, которая генерирует музыку, может слушать музыкальный контекст и адекватно отвечать на него
“`html
Генерация музыки с использованием глубокого обучения включает в себя тренировку моделей для создания музыкальных композиций, имитирующих паттерны и структуры, присутствующие в существующей музыке. Часто используются методы глубокого обучения, такие как RNN, LSTM-сети и модели-трансформеры. В данном исследовании исследуется инновационный подход к генерации музыкального аудио с использованием неавторегрессионных, основанных на трансформерах моделей, способных реагировать на музыкальный контекст. В отличие от существующих моделей, которые полагаются на абстрактное кондиционирование, данная новая парадигма акцентирует внимание на прослушивании и реагировании. В исследовании учтены самые последние достижения в данной области и обсуждаются улучшения, внесенные в архитектуру.
Исследователи из SAMI, ByteDance Inc., представляют неавторегрессионную модель, основанную на трансформерах, которая способна слушать и реагировать на музыкальный контекст, используя доступный публично кодировочный шаг для модели MusicGen. Оценка проводится с помощью стандартных метрик и подхода музыкального поиска информации, включая Frechet Audio Distance (FAD) и Music Information Retrieval Descriptor Distance (MIRDD). Результативная модель демонстрирует конкурентоспособное качество звука и надежную музыкальную выверенность в контексте, подтвержденные объективными метриками и субъективными тестами MOS.
Исследование подчеркивает последние достижения в генерации музыкального аудио с использованием глубокого обучения, заимствуя методы из обработки изображений и языковой обработки. Оно акцентирует внимание на проблеме выравнивания частей в музыкальной композиции и критикует существующие модели, полагающиеся на абстрактное кондиционирование. В исследовании предлагается подход к тренировке, использующий неавторегрессионную модель на базе трансформера для реагирования на музыкальный контекст. Вводятся два источника кондиционирования и проблема формулируется как условная генерация. Для оценки модели необходимо использовать объективные метрики, дескрипторы музыкального поиска информации и тестирование прослушивания.
- Общие модели мира исследование искусственного интеллекта на подиуме Мировые модели Начало новой долгосрочной исследовательской работы
- Google Deepmind Research представляет FunSearch новый метод искусственного интеллекта для поиска новых решений в математике и компьютерных науках
- ‘Ученые МИТ раскрывают новые понимания связей между мозгом и слухом с помощью передовых моделей нейронных сетей’
Метод использует неавторегрессионную модель на базе трансформера для генерации музыки и включает резидуальный векторный кодировщик в отдельную модель для кодирования аудио. Он объединяет несколько аудио-каналов в один элемент последовательности с помощью конкатенированных вложений. Тренировка осуществляется с использованием процедуры маскирования, и при выборке токенов для улучшения выровненности аудио контекста используется руководство без классификатора. Объективные метрики оценивают производительность модели, включая Fr’echet Audio Distance и Music Information Retrieval Descriptor Distance. В оценку включается генерация и сравнение примеров с реальными частями с использованием различных метрик.
В исследовании оцениваются созданные модели с использованием стандартных метрик и подхода музыкального поиска информации, включая FAD и MIRDD. Сравнение с реальными частями показывает, что модели достигают качества звука, сравнимого с современными моделями, основанными на тексте, и демонстрируют прочную музыкальную связность с контекстом. Тест с Оценкой Среднего Мнения с участием музыкально подготовленных участников дополнительно подтверждает способность модели порождать правдоподобные музыкальные результаты. MIRDD, оценивающий распределительное соответствие созданных и реальных частей, предоставляет меру музыкальной связности и выровненности.
В заключении, проведенное исследование может быть описано следующими пунктами:
- Исследование предлагает новый подход к тренировке генеративных моделей, способных реагировать на музыкальный контекст.
- Подход вводит неавторегрессионную модель языка с основой на трансформерах и два новых улучшения: многоканальное руководство без использования классификатора и причинный биас во время итеративного декодирования.
- Модели достигают качества звука, не уступающего state-of-the-art моделям, тренируясь на открытых и официальных датасетах.
- Стандартные метрики и подход музыкального поиска информации подтверждают качество звука, не уступая state-of-the-art моделям.
- Тест со средней оценкой мнения подтверждает способность модели порождать реалистичные музыкальные результаты.
“`