Познакомьтесь с AudioLDM 2 уникальным фреймворком искусственного интеллекта для генерации звука, который сочетает речь, музыку и звуковые эффекты.

Познакомьтесь с AudioLDM 2 - фреймворком ИИ для генерации звука, объединяющим речь, музыку и звуковые эффекты.

В мире, все больше полагающемся на концепции искусственного интеллекта и глубокого обучения, область генерации звука переживает прорывное преобразование с появлением AudioLDM 2. Эта инновационная платформа открывает путь к интегрированному методу синтеза аудио, революционизируя способ производства и восприятия звука в различных контекстах, включая речь, музыку и звуковые эффекты. Генерация аудиоинформации в зависимости от определенных переменных, таких как текст, фонемы или визуальные данные, известна как генерация звука. Это включает в себя ряд подобластей, включая голос, музыку, звуковые эффекты и даже определенные звуки, такие как скрипка или звуки шагов.

Каждая подобласть имеет свои собственные проблемы, и ранее часто использовались специализированные модели, адаптированные к этим задачам. Предустановленные ограничения, направляющие процесс обучения на решение определенной проблемы, являются задачеспецифичными предубеждениями в этих моделях. Эти ограничения препятствуют использованию генерации звука в сложных ситуациях, когда существует много форм звуков, таких как последовательности в фильмах, несмотря на значительные прогрессы в специализированных моделях. Требуется единая стратегия, которая может обеспечить разнообразные аудиосигналы.

Для решения этих проблем исследовательская группа представила AudioLDM 2 – уникальную платформу с настраиваемыми условиями, позволяющую генерировать любой тип аудио без использования предубеждений, специфичных для области. Группа представила “язык звука” (LOA), который представляет собой последовательность векторов, представляющих семантическую информацию аудиоклипа. LOA позволяет преобразовывать информацию, понятную человеку, в формат, подходящий для производства аудио, зависимого от LOA, захватывая как мелкозернистые аудиторные особенности, так и крупнозернистую семантическую информацию.

Группа предложила использовать предварительно обученный на разнообразных источниках аудио модель автокодировщика масок аудио (AudioMAE) для решения этой задачи. Оптимальное аудио представление для генеративных задач создается с помощью предварительного обучения, которое включает в себя реконструктивную и генеративную деятельность. Затем информация о состоянии, такая как текст, аудио и графика, преобразуется в признак AudioMAE с использованием языковой модели на основе GPT. В зависимости от характеристики AudioMAE, аудио синтезируется с использованием модели латентного диффузии, и эта модель поддаётся оптимизации самообучения, позволяя предварительное обучение на неаннотированных аудиоданных. В то время как решаются проблемы с вычислительными затратами и накоплением ошибок, присущие ранним моделям аудио, техника языкового моделирования использует последние достижения в области языковых моделей.

При оценке эксперименты показали, что AudioLDM 2 работает на передовом уровне в задачах, требующих преобразования текста в аудио и музыку. Он превосходит мощные базовые модели в задачах преобразования текста в речь, и для задач, таких как преобразование изображений в звуки, платформа может дополнительно включать критерии для визуальной модальности. Исследуются также вспомогательные функции для контекстного обучения аудио, музыки и голоса. По сравнению с AudioLDM, AudioLDM 2 превосходит его по качеству, адаптируемости и производству понятной речи.

Основные вклады были суммированы исследовательской группой:

  1. Была представлена инновационная и адаптивная модель создания аудио, способная генерировать аудио, музыку и понятную речь с заданными условиями.
  1. Подход был построен на универсальном аудиопредставлении, позволяющем обширное предварительное обучение ядра модели латентной диффузии без необходимости размеченных аудиоданных. Эта интеграция объединяет преимущества авторегрессионных и моделей латентной диффузии.
  1. Через эксперименты было подтверждено, что AudioLDM 2 достигает передовой производительности в задачах генерации текста в аудио и музыку. Он достиг конкурентных результатов в задачах преобразования текста в речь, сравнимых с текущими передовыми методами.