Познакомьтесь с AudioSR интеллектуальным решением Plug & Play, предназначенным для повышения качества аудио до невероятного уровня 48 кГц.

Познакомьтесь с AudioSR - Plug & Play решением для улучшения качества аудио до 48 кГц.

Одной из ключевых проблем в области цифровой обработки аудио является аудио супер-разрешение. Его целью является улучшение качества аудиосигналов путем предвидения и включения отсутствующих высокочастотных компонентов в низкоразрешенные аудиоданные. Основная цель – обеспечить более захватывающий и превосходный звуковой опыт, то есть высокую отчетливость. Аудио супер-разрешение является важной технологией с многочисленными применениями, такими как восстановление старых записей. Однако, предыдущие подходы в этой области имеют несколько недостатков, таких как ограничение в узком диапазоне настроек полосы пропускания, который обычно ограничен от 4 кГц до 8 кГц, и узкое сосредоточение на определенных аудио-жанрах, таких как музыка или речь.

Для преодоления этих проблем команда исследователей недавно предложила инновационный метод, называемый AudioSR (Audio Super Resolution), который основан на моделях генерации на основе диффузии. AudioSR обладает сильными возможностями аудио супер-разрешения для различных звуков, включая речь, музыку и звуковые эффекты. Одной из замечательных характеристик AudioSR является его адаптируемость в обработке различных аудиоформатов. Он может обрабатывать супер-разрешение, чтобы обеспечить высококачественный аудиовыход с постоянной полосой пропускания 24 кГц и частотой дискретизации 48 кГц из различных источников, производящих аудиосигналы с полосами пропускания от 2 кГц до 16 кГц в качестве входных данных.

Поскольку AudioSR может эффективно масштабировать аудиосигналы в различных аудиоформатах и настройках полосы пропускания, он хорошо адаптируется к различным реальным сценариям и приложениям. AudioSR основан на предыдущих исследованиях, которые показывают, что нейронные вокодеры имеют полезные предварительные знания для восстановления компонентов более высокой частоты в задачах аудио супер-разрешения. Он применяет аудио супер-разрешение на мел-спектрограмму и создает аудиосигнал с помощью нейронного вокодера. Обучается латентная модель диффузии для изучения условного создания мел-спектрограммы высокого разрешения из низкоразрешенных аналогов, чтобы AudioSR мог оценить мел-спектрограмму высокого разрешения.

Результаты экспериментов показали, что AudioSR, поддерживая различные настройки частоты дискретизации входных сигналов, обеспечивает многообещающие результаты супер-разрешения для различных аудиоформатов, включая речь, музыку и звуковые эффекты. Субъективный анализ показал, что качество вывода моделей текст-в-аудио, таких как AudioLDM, текст-в-музыку, таких как MusicGen, и текст-в-речь, таких как Fastspeech2, значительно улучшилось благодаря использованию AudioSR. Это означает, что AudioSR может быть легко включен в модуль plug-and-play в большинстве моделей генерации аудио, улучшая качество звучания для различных приложений.

Команда подвела итоги своего вклада следующим образом –

  1. Общее слышимое аудио супер-разрешение: Команда представила AudioSR, который достигает аудио супер-разрешения в области всех слышимых звуков. В отличие от предыдущих подходов, которые часто были специализированы на конкретных аудио-категориях, AudioSR предлагает более гибкое и всеобъемлющее решение для улучшения качества звука.
  1. Гибкая обработка полосы пропускания аудио: AudioSR обладает невероятной гибкостью, так как он может эффективно обрабатывать аудиосигналы с широкой полосой пропускания от 2 кГц до 16 кГц. Он даже может сохранять высококачественную частоту дискретизации 48 кГц, расширяя эту полосу пропускания до надежных 24 кГц.
  1. Интеграция plug-and-play с моделями генерации звука: AudioSR продемонстрировал свою ценность в качестве модуля plug-and-play для улучшения качества звука нескольких моделей генерации аудио и своих способностей в аудио супер-разрешении. Добавление AudioSR к моделям, таким как AudioLDM, MusicGen и FastSpeech2, улучшает качество звукового вывода.