Текст-в-музыку Генеративный ИИ Stability Audio, MusicLM от Google и многое другое

Текст-в-музыку и другие ИИ от Google

Музыка, искусство, которое отзывается с душой человека, всегда была постоянным спутником всех нас. Создание музыки с использованием искусственного интеллекта началось несколько десятилетий назад. Изначально попытки были простыми и интуитивными, с помощью базовых алгоритмов создавались однообразные мелодии. Однако с развитием технологий возросла сложность и возможности генераторов музыки на основе искусственного интеллекта, что открыло путь для использования глубокого обучения и обработки естественного языка (NLP) в этой области технологий.

Сегодня платформы, такие как Spotify, используют искусственный интеллект для настройки опыта прослушивания своих пользователей. Эти алгоритмы глубокого обучения анализируют индивидуальные предпочтения на основе различных музыкальных элементов, таких как темп и настроение, чтобы создавать персонализированные рекомендации песен. Они даже анализируют более широкие слушательские предпочтения и ищут в интернете обсуждения, связанные с песнями, чтобы создать подробные профили песен.

Происхождение искусственного интеллекта в музыке: путь от алгоритмической композиции к генеративному моделированию

На ранних этапах внедрения искусственного интеллекта в мире музыки, с 1950-х по 1970-е годы, акцент был в основном на алгоритмической композиции. Это был метод, при котором компьютеры использовали определенный набор правил для создания музыки. Первым заметным достижением в этот период был созданный в 1957 году “Иллиакский квартет” для струнного квартета. В нем использовался алгоритм Монте-Карло, процесс, включающий случайные числа, чтобы определить высоту и ритм в рамках традиционной музыкальной теории и статистических вероятностей.

Изображение, созданное автором с помощью Midjourney

В это время еще один пионер, Ианнис Ксенакис, использовал стохастические процессы, концепцию, основанную на случайных вероятностных распределениях, для создания музыки. Он использовал компьютеры и язык FORTRAN для связывания нескольких функций вероятности, создавая шаблон, в котором различные графические представления соответствовали различным звуковым пространствам.

Сложность перевода текста в музыку

Музыка хранится в богатом и многомерном формате данных, который охватывает такие элементы, как мелодия, гармония, ритм и темп, что делает задачу перевода текста в музыку чрезвычайно сложной. Обычная песня представлена почти миллионом чисел в компьютере, что значительно больше, чем в других форматах данных, таких как изображение, текст и т. д.

В области генерации звука появляются инновационные подходы для преодоления сложностей создания реалистичного звука. Один из методов заключается в генерации спектрограммы, а затем ее обратном преобразовании в звук.

Другая стратегия использует символическое представление музыки, например, нотный стан, который может быть интерпретирован и исполнен музыкантами. Этот метод успешно цифровизирован с помощью инструментов, таких как генератор ансамбля Magenta, который создает музыку в формате MIDI, протоколе, обеспечивающем обмен данными между компьютерами и музыкальными инструментами.

Хотя эти подходы продвинули область вперед, они имеют свои ограничения, подчеркивая сложность генерации звука.

Модели на основе авторегрессии на основе трансформатора и модели диффузии на основе U-Net находятся в передовой технологий, производя современные результаты в генерации звука, текста, музыки и многого другого. Серия GPT от OpenAI и практически все другие LLM в настоящее время используют трансформаторы, использующие либо архитектуру кодировщика, либо декодера, либо обе архитектуры. В сфере искусства/изображений MidJourney, Stability AI и DALL-E 2 все используют фреймворки диффузии. Эти две ключевые технологии сыграли важную роль в достижении современных результатов в аудио-секторе. В этой статье мы рассмотрим MusicLM от Google и Stable Audio, которые являются замечательными примерами возможностей этих технологий.

MusicLM от Google

MusicLM от Google был выпущен в мае этого года. MusicLM может генерировать музыкальные произведения высокой фидельности, соответствующие описанию на тексте. С помощью иерархического моделирования последовательностей MusicLM способен преобразовывать текстовые описания в музыку, звучащую на частоте 24 кГц на протяжении продолжительного времени.

Модель работает на многомерном уровне, не только придерживаясь текстовых входных данных, но и обладая способностью быть условием для мелодий. Это означает, что модель может принимать на фоне мелодию, напеваемую или свистимую, и преобразовывать ее в соответствии со стилем, описанным в текстовой подписи.

Технические аспекты

MusicLM использует принципы AudioLM, фреймворка, представленного в 2022 году для генерации звука. AudioLM синтезирует звук как задачу языкового моделирования в пределах дискретного пространства представления, используя иерархию грубых и тонких дискретных единиц звука, также известных как токены. Такой подход обеспечивает высокую фидельность и долгосрочную согласованность в течение продолжительного времени.

Для упрощения процесса генерации MusicLM расширяет возможности AudioLM, включая текстовую кондицию, технику, которая выравнивает сгенерированный звук с нюансами входного текста. Это достигается через общее пространство вложений, созданное с использованием MuLan, совместной модели музыки и текста, обученной проецировать музыку и соответствующие ей текстовые описания близко друг к другу в пространстве вложений. Эта стратегия эффективно устраняет необходимость в подписях во время обучения, позволяя модели обучаться на огромных аудио-корпусах, содержащих только аудио.

Модель MusicLM также использует SoundStream в качестве аудио-токенизатора, который может восстановить музыку с частотой дискретизации 24 кГц при битовой скорости 6 кбит/с с впечатляющей точностью, используя векторное квантование остаточных векторов (RVQ) для эффективного и качественного сжатия аудио.

Иллюстрация процесса предварительного обучения MusicLM: SoundStream, w2v-BERT и Mulan | Источник изображения: здесь

Более того, MusicLM расширяет свои возможности, позволяя использовать мелодическую кондицию. Этот подход гарантирует, что даже простая напевная мелодия может стать основой великолепного слухового опыта, точно настроенного под точные описания стиля текста.

Разработчики MusicLM также опубликовали в открытом доступе MusicCaps — набор данных, содержащий 5,5 тыс. пар музыки и текста, каждая сопровождаемая богатыми текстовыми описаниями, созданными экспертами. Вы можете ознакомиться с ним здесь: MusicCaps на Hugging Face.

Готовы создавать звуковые дорожки с помощью MusicLM от Google? Вот как начать:

  1. Посетите официальный сайт MusicLM и нажмите “Начать”.
  2. Присоединитесь к списку ожидания, выбрав “Зарегистрировать свой интерес”.
  3. Войдите с использованием учетной записи Google.
  4. Получив доступ, нажмите “Попробовать сейчас”, чтобы начать.

Ниже приведены несколько примеров запросов, с которыми я экспериментировал:

“Медитативная песня, успокаивающая и расслабляющая, с флейтами и гитарами. Музыка медленная, с акцентом на создание ощущения мира и спокойствия.”

“джаз с саксофоном”

При сравнении с предыдущими моделями SOTA, такими как Riffusion и Mubert, в качественной оценке MusicLM предпочиталась больше других, участники благоприятно оценивали совместимость текстовых подписей с аудиофрагментами длительностью 10 секунд на шкале Ликерта из 5 пунктов.

Производительность MusicLM, источник изображения: здесь

Звуковая стабильность

Stability AI на прошлой неделе представил “Стабильный звук” — архитектуру латентной диффузионной модели, условию которой подлежат метаданные текста, а также длительность и время начала аудиофайла. Этот подход, подобно MusicLM от Google, позволяет контролировать содержание и длину генерируемого аудио, позволяя создавать аудиофрагменты с указанной длиной до размера окна обучения.

Стабильный звук

Технические аспекты

Стабильный звук включает несколько компонентов, включая вариационный автоэнкодер (VAE) и условную диффузионную модель на основе U-Net, работающую вместе с текстовым энкодером.

Архитектура стабильного звука, источник изображения: здесь

VAE обеспечивает более быструю генерацию и обучение, сжимая стереоаудио в сжатое данные, устойчивое к шуму и инвертируемое потерями латентное кодирование, обходя необходимость работать с необработанными аудио-образцами.

Текстовый энкодер, производный от модели CLAP, играет ключевую роль в понимании сложных взаимосвязей между словами и звуками, предлагая информативное представление токенизированного входного текста. Это достигается с использованием текстовых признаков из предпоследнего слоя текстового энкодера CLAP, которые затем интегрируются в диффузионный U-Net через слои кросс-внимания.

Важным аспектом является использование вложений времени, которые рассчитываются на основе двух свойств: начальной секунды аудиофрагмента и общей продолжительности исходного аудиофайла. Эти значения, преобразованные в дискретные вложения, вычисленные на каждую секунду, комбинируются с токенами подсказок и подаются на кросс-attention слои U-Net, позволяя пользователям диктовать общую длительность выходного аудио.

Модель Stable Audio была обучена с использованием обширного набора данных из более чем 800 000 аудиофайлов в рамках сотрудничества с поставщиком музыки AudioSparx.

Реклама Stable Audio

Stable Audio предлагает бесплатную версию, позволяющую создавать до 20 поколений треков продолжительностью до 20 секунд в месяц, и платный план Pro за 12 долларов в месяц, позволяющий создавать до 500 поколений треков продолжительностью до 90 секунд.

Ниже приведен аудиофрагмент, созданный с использованием Stable Audio.

Изображение, созданное автором с использованием Midjourney

«Кинематографический, звуковой трек Нежный дождь, Фоновый, Успокаивающий, Далекое лаем собак, Шелест листьев, Нежный ветер, 40 BPM»

 

Применение таких тщательно созданных аудиофрагментов бесконечно. Режиссеры могут использовать эту технологию для создания богатых и захватывающих звуковых пейзажей. В коммерческом секторе рекламодатели могут использовать эти настроенные аудиотреки. Более того, этот инструмент открывает возможности для индивидуальных создателей и художников для экспериментов и инноваций, предлагая неограниченный потенциал для создания звуковых произведений, рассказывающих истории, вызывающих эмоции и создающих атмосферы с глубиной, которую раньше было сложно достичь без значительного бюджета или технического мастерства.

Советы по подсказкам

Создайте идеальное аудио с помощью текстовых подсказок. Вот быстрое руководство для начала:

  1. Будьте подробными: Укажите жанры, настроения и инструменты. Например: Кинематографический, Дикий Запад, Ударные, Напряженный, Атмосферный
  2. Установка настроения: Комбинируйте музыкальные и эмоциональные термины, чтобы передать желаемое настроение.
  3. Выбор инструментов: Усилите названия инструментов прилагательными, например “Реверберируемая гитара” или “Мощный хор”.
  4. BPM: Согласуйте темп с жанром для гармоничного результата, например “170 BPM” для трека Drum and Bass.

Заключительные замечания

Изображение, созданное автором с использованием Midjourney

В этой статье мы погрузились в создание музыки/аудио с помощью искусственного интеллекта, от алгоритмических композиций до современных генеративных фреймворков искусственного интеллекта, таких как MusicLM от Google и Stability Audio. Эти технологии, использующие глубокое обучение и сжатие SOTA, не только улучшают генерацию музыки, но и настраивают впечатления слушателей.

Однако это область постоянной эволюции, с препятствиями, такими как поддержание долгосрочной связности и дебаты о подлинности музыки, созданной искусственным интеллектом, которые вызывают трудности для пионеров в этой области. Всего неделю назад все гудело о песне, созданной искусственным интеллектом в стиле Дрейка и Викенда, которая сначала стала популярной в Интернете в начале этого года. Однако она была удалена из списка номинантов на премию «Грэмми», показывая продолжающийся дебат о подлинности музыки, созданной искусственным интеллектом, в индустрии (источник). По мере того как искусственный интеллект продолжает сокращать разрывы между музыкой и слушателями, он безусловно способствует созданию экосистемы, где технология сосуществует с искусством, способствуя инновациям и уважая традиции.