«Как работает стабильное аудио от Stability AI?»

«Как работает стабильное аудио от Stability AI?» - всё, что вы должны знать

Новый ИИ, который генерирует удивительную музыку!

Оригинально опубликовано на louisbouchard.ai, прочитайте это за 2 дня на моем блоге!

Посмотреть видео:

Знаете ли вы, что ИИ уже может создавать удивительную музыку?

Да, вы все правильно поняли. Мы можем не только делать это в исследовательском контексте, программировать его самостоятельно, но и на веб-сайте, где вы можете просто ввести краткое текстовое описание того, что вы хотите, и получить образец музыки! И самое лучшее в том, что вы можете попробовать это бесплатно до 20 раз в месяц! Действительно, та же команда, которая стоит за Stable Diffusion, только что выпустила Stable Audio. Stable Audio, разработанный Stability AI, работает очень похожим образом, как и стабильная диффузия, способный понимать текст и преобразовывать абстрактные слова в музыкальное представление, так же, как стабильная диффузия делает это для изображений. И даже лучше, чем бесплатно: они открыто поделились информацией о том, как им это удалось, поэтому давайте углубимся в это!

Как вы видели много раз на моем канале, большинство новых генеративных подходов, особенно связанных с изображениями и другими сложными сигналами, основаны на подходе, который мы называем диффузионными сетями, как, например, стабильная диффузия.

Почему это важно? И почему я снова говорю о стабильной диффузии? Во-первых, диффузионные модели – это мощные сети, которые принимают шум и могут генерировать из него выходы. Они делают это, обучая модель в обратном порядке, начиная с изображений и медленно портя изображение, позволяя модели узнать, как мы его портим. За миллионы проб и примеров наша модель учится шаблонам шума и может взять полный шум и сконструировать вход, как изображение.

Процесс диффузии с приложением переноса стиля изображения в изображение (вводится эскиз, в результате получается реальное изображение).

Но здесь речь идет о звуке, поэтому это имеет отношение? На самом деле, звук довольно похож на изображения. Звук может быть преобразован в магнитудный спектрограмму. Это визуальное представление всего частотного контента звука во времени, где ось х показывает…