MusicGen в новом свете метаизменения незаметных продвижений Meta в искусстве создания музыки с использованием ИИ

Музыкальный Ген в новом свете эволюция незаметных передвижений Meta в искусстве создания музыки с применением искусственного интеллекта

Исследование прогресса MusicGen, о котором упущено внимание, но который заслуживает восхищения

Изображение символизирующее как продукты музыкального искусственного интеллекта могут усовершенствовать музыку для каждого. Изображение сгенерировано в ходе разговора с ChatGPT и DALL-E-3.

Как все началось…

В феврале 2023 года Google сотрясла музыкальный мир своим музыкальным искусственным интеллектом MusicLM. С того момента стало ясно две вещи:

  1. 2023 год станет прорывным годом для генерации музыки на основе искусственного интеллекта
  2. Вскоре появится новая модель, которая поглотит MusicLM

Многие ожидали, что следующая прорывная модель будет в десять раз больше MusicLM по количеству параметров модели и данных для обучения. Она также вызвала те же этические вопросы, включая ограниченный доступ к исходному коду и использование защищенного авторским правом учебного материала.

Сегодня мы знаем, что только половина из этого оказалась правдой.

Вышедшая в июне 2023 года модель MusicGen от Meta внесла несколько огромных улучшений, включая…

  1. Высококачественный музыкальный вывод (24kHz → 32kHz)
  2. Более естественное звучание инструментов
  3. Возможность условной генерации на любую мелодию (об этом я написал в блоге)

…при этом используя меньше данных для обучения, предоставляя открытый доступ к исходному коду и весам модели, и используя только коммерчески лицензированный учебный материал.

Через шесть месяцев восторги медленно стихают. Однако исследовательская группа Meta FAIR продолжает публиковать статьи и обновлять код для постепенного улучшения MusicGen.

…как дела идут

С момента выпуска Meta улучшила MusicGen двумя ключевыми способами:

  1. Высококачественная генерация с использованием многополосной диффузии
  2. Более живая музыка благодаря стерео-генерации

Хотя это может показаться двумя незначительными улучшениями, они имеют большое значение. Послушайте сами! Вот 10-секундное произведение, сгенерированное с помощью оригинальной модели MusicGen (3,3 млрд. параметров):

Сгенерированный трек взят с официальной демо-страницы MusicGen здесь.

Использованный запрос:

земные оттенки, экологическая осознанность, пропитанный укулеле, гармоничный, легкий, органический инструментарий, нежная музыкальная ритмика

А теперь пример выхода, который MusicGen может создать через шесть месяцев на основе того же запроса:

Сгенерированное произведение создано автором с помощью MusicGen 3.3B stereo.

Если вы слушаете через динамики смартфона, разница может быть незаметной. На других устройствах вы должны услышать, что звук в целом стал более четким и естественным, и что стерео звучание делает композицию более живой и захватывающей.

В этой статье я хочу показать эти улучшения, объяснить их значение и принцип работы и предоставить несколько примеров.

Многополосная диффузия – что это такое?

Чтобы понять, что такое многополосная диффузия и почему она имеет значение, давайте посмотрим, как оригинальная модель MusicGen [1] создавала свои выходы.

30 секунд аудио с частотой дискретизации 34kHz представлены в компьютере почти 1 миллионом чисел. Генерация такого аудио с примерно такой скоростью, как генерация 10 полных книг с помощью ChatGPT.

Вместо этого Meta полагается на нейронные аудио-компрессионные техники. Их модель компрессии, EnCodec [2], может упаковывать музыку с разрешением 34kHz в примерно 0.05kHz, сохраняя при этом достаточно информации для ее восстановления обратно к исходной частоте дискретизации. EnCodec состоит из кодера, который упаковывает аудио, и декодера, который воссоздает оригинальные звуки (Рисунок 1).

Рис. 1 — Encodec: нейронная модель сжатия аудио от Meta. Изображение автора.

Теперь вернемся к MusicGen. Вместо генерации музыки с полной частотой дискретизации, она генерирует ее с частотой 0,05 кГц и позволяет EnCodec “восстановить” ее, что приводит к высококачественному выводу при минимальном времени и затратах на вычисления (Рис. 2).

Рис. 2 — MusicGen: пользовательский запрос (текст) преобразуется в закодированный аудиосигнал, который затем декодируется для получения конечного результата. Изображение автора.

Хотя EnCodec является впечатляющей технологией, его сжатие не является без потерь. Восстановленное аудио имеет заметные артефакты по сравнению с оригиналом. Послушайте сами!

Оригинальное аудио

Пример музыки EnCodec взят с официальной страницы демонстрации EnCodec.

Восстановленное аудио

Пример музыки EnCodec взят с официальной страницы демонстрации EnCodec.

Поскольку MusicGen полностью полагается на EnCodec, это является основным узким местом для качества сгенерированной музыки. Именно поэтому Meta решила работать над улучшением декодера EnCodec. В августе 2023 года они разработали обновленный декодер для EnCodec, используя многополосную диффузию [3].

Одной из проблем, которую Meta заметила в оригинальном декодере EnCodec, было то, что он склонен сначала генерировать низкие частоты, а затем более высокие. К сожалению, это означало, что любые ошибки/артефакты в низких частотах также искажали высокие частоты, что существенно снижало качество вывода.

Многополосная диффузия решает эту проблему, генерируя разные секции спектра частот независимо друг от друга перед их соединением. Исследователи обнаружили, что этот подход значительно улучшает сгенерированные результаты. Различия заметны невооруженным глазом. Послушайте одну и ту же трек с оригинальным декодером EnCodec и декодером многополосной диффузии:

Оригинальный декодер

Сгенерированный трек, взятый с страницы демонстрации Multi-Band Diffusion.

Декодер многополосной диффузии

Сгенерированный трек, взятый с страницы демонстрации Multi-Band Diffusion.

Одна из основных проблем существующих систем преобразования текста в музыку заключается в том, что звуки, которые она производит, всегда имеют неестественное качество, особенно для акустических инструментов. Многополосная диффузия значительно улучшает звучание и делает вывод в MusicGen более чистым и натуральным, поднимая его на новый уровень.

Почему стереозвук так важен?

До сих пор большинство моделей генеративной музыки производят моно звук. Это означает, что MusicGen не размещает звуки или инструменты слева или справа, что приводит к менее живому и захватывающему миксу. Причина, по которой стереозвук в основном не учитывается, заключается в том, что создание стерео звука не является тривиальной задачей.

Как музыканты, когда мы производим стерео сигналы, у нас есть доступ к отдельным дорожкам инструментов в нашем миксе, и мы можем разместить их где угодно. MusicGen не генерирует все инструменты отдельно, а вместо этого производит один общий аудиосигнал. Без доступа к источникам этих инструментов создание стерео звука затруднительно. К сожалению, разделение аудиосигнала на отдельные источники – это сложная проблема (я опубликовал блог об этом), и технология до сих пор не является на 100% готовой.

Поэтому Meta решила включить генерацию стерео непосредственно в модель MusicGen. Используя новый набор данных, состоящий из стерео музыки, они обучили MusicGen производить стерео выходы. Исследователи утверждают, что генерация стерео не имеет дополнительных вычислительных затрат по сравнению с моно.

Хотя я чувствую, что процедура стерео не очень ясно описана в статье, по моему пониманию она работает так (Рисунок 3): MusicGen научился генерировать два сжатых аудиосигнала (левый и правый канал) вместо одного моносигнала. Эти сжатые сигналы должны быть декодированы отдельно, прежде чем они объединяются в конечный стерео выход. Причина, по которой этот процесс не занимает вдвое больше времени, заключается в том, что MusicGen теперь может производить два сжатых аудиосигнала примерно за то же время, которое раньше занималось для одного сигнала.

Рисунок 3 — Обновление стерео MusicGen. Обратите внимание, что процесс не был достаточно документирован в статье, чтобы я был на 100% уверен в этом. Примите это как обоснованное предположение. Изображение автора.

Возможность производить убедительный стереозвук действительно отличает MusicGen от других современных моделей, таких как MusicLM или Stable Audio. С моей точки зрения, эта «маленькая» дополнительная возможность делает огромную разницу в живости создаваемой музыки. Слушайте сами (может быть сложно услышать на динамиках смартфона):

Mono

Stereo

Заключение

MusicGen произвел впечатление с момента своего выпуска. Однако с тех пор команда FAIR Meta постоянно улучшает свой продукт, обеспечивая более высокое качество результатов, которые звучат более аутентично. Когда речь идет о моделях текст-в-музыку, генерирующих аудиосигналы (не MIDI и т. д.), MusicGen опережает своих конкурентов с моей точки зрения (на ноябрь 2023 года).

Кроме того, поскольку MusicGen и все его связанные продукты (EnCodec, AudioGen) являются открытым исходным кодом, они являются невероятным источником вдохновения и основным фреймворком для начинающих инженеров AI аудио. Если мы посмотрим на улучшения, которые MusicGen сделал всего за 6 месяцев, я могу только представить, что 2024 год будет захватывающим.

Еще один важный момент заключается в том, что Meta также выполняет базовую работу для разработчиков, которые хотят интегрировать эту технологию в программное обеспечение для музыкантов. Генерация образцов, проработка музыкальных идей или изменение жанра вашей существующей работы – это лишь некоторые из захватывающих приложений, которые мы уже начинаем видеть. С достаточным уровнем прозрачности, мы можем быть уверены, что создаем будущее, где искусственный интеллект делает создание музыки более захватывающим, а не только угрозой для человеческой музыкальности.

Примечание: В то время как MusicGen является открытым исходным кодом, предварительно обученные модели могут не использоваться коммерчески! Посетите репозиторий audiocraft на GitHub по адресу https://github.com/facebookresearch/audiocraft для получения более подробной информации о предполагаемом использовании всех его компонентов.

Литература

[1] Copet и др. (2023). Простая и управляемая генерация музыки. https://arxiv.org/pdf/2306.05284.pdf

[2] Défossez и др. (2022). Высококачественная нейронная аудиокомпрессия. https://arxiv.org/pdf/2210.13438.pdf

[3] Roman и др. (2023). От дискретных токенов к высококачественному аудио с использованием многозонной диффузии. https://arxiv.org/abs/2308.02560

Обо мне

Привет! Я музыковед и дата-сайентист, делюсь своими мыслями на актуальные темы в области искусственного интеллекта и музыки. Вот некоторые из моих предыдущих работ, связанных с этой статьей:

Найдите меня на VoAGI и Linkedin!