Koe AI представляет LLVC революционную модель реального времени конвертации голоса с беспрецедентной эффективностью и скоростью
Koe AI представляет революционную модель LLVC реального времени конвертация голоса с беспрецедентной эффективностью и скоростью
Команда исследователей из Koe AI представила модель LLVC (Low-latency, Low-resource Voice Conversion), разработанную для преобразования голоса в режиме реального времени с любого на одного, отличающуюся очень низкой задержкой и минимальным использованием ресурсов. Она эффективно работает с выдающейся скоростью на стандартном процессоре для обычного потребителя. В рамках исследования ЛЛВЦ предлагает использовать открытые образцы, код и предварительно обученные модели для более широкого доступа.
Модель ЛЛВЦ состоит из генератора и дискриминатора, и только генератор используется при выводе данных. Для оценки естественности и сходства голоса с целевым диктором используются оценочные баллы “Mean Opinion Scores” от Amazon Mechanical Turk, а также тестовые данные LibriSpeech test-clean. Также рассматривается знание методики, которая включает большую модель-учителя, направляющую маленькую модель-ученика для улучшения вычислительной эффективности.
Голосовое преобразование заключается в том, чтобы изменить речь таким образом, чтобы она соответствовала стилю другого диктора, сохраняя при этом оригинальное содержание и интонацию. Реализация голосового преобразования в реальном времени, с операцией более быстрой, чем в реальном времени, низкой задержкой и ограниченным доступом к будущему аудиоконтексту, представляет собой сложную задачу. Существующие сети высокого качества для синтеза речи должны быть более подходящими для этих вызовов. Модель ЛЛВЦ, основанная на архитектуре Waveformer, разработана для решения уникальных требований голосового преобразования в реальном времени.
- Как мы научили Google Translate распознавать омонимы
- Поиск ответов (о лучшем способе находить ответы)
- Робот имитирует вымершего морского организма, жившего 450 миллионов лет назад
LLVC использует архитектуру генеративных адверсарных сетей и методику знания для достижения выдающейся эффективности, отличающейся низкой задержкой и использованием ресурсов. Она интегрирует архитектуры DCC Encoder и Transformer Decoder с некоторыми настраиваемыми модификациями. LLVC обучается на параллельном наборе данных, в котором голоса различных дикторов трансформируются так, чтобы имитировать конкретного целевого диктора. Основная цель состоит в уменьшении заметных различий между выходными данными модели и синтетической целевой речью.
LLVC впечатляет суб-20 мс задержкой при скорости 16 кГц, превосходя операцию в реальном времени практически в 2,8 раза на процессорах стандартного уровня для потребителей. Она устанавливает планку благодаря самому низкому использованию ресурсов и задержке среди открытых моделей голосового преобразования. Для оценки ее качества и само-сходства производится анализ производительности модели с использованием звуковых файлов LibriSpeech test-clean. В сравнении с режимами No-F0 RVC и QuickVC, выбранными из-за их минимальной задержки вывода на процессор, LLVC проявляет себя в конкуренции.
Исследование сосредотачивается исключительно на реальном преобразовании голоса с любого на одного на процессорах и не рассматривает выполнение модели на разном оборудовании или сравнение с существующими моделями на разных конфигурациях. Оценка ограничивается только задержкой и использованием ресурсов, не проводится анализ качества речи и естественности. Отсутствие подробного анализа гиперпараметров затрудняет воспроизводимость и тонкую настройку под конкретные потребности. Исследование не затрагивает реальные проблемы ЛЛВЦ, такие как масштабируемость, совместимость с ОС и языковые или акцентные особенности.
В заключение, исследование подтверждает возможность реализации голосового преобразования с низкой задержкой и эффективным использованием ресурсов с помощью модели ЛЛВЦ, которая работает в реальном времени на обычных процессорах для потребителей, избавляясь от необходимости использования выделенных ГПУ. ЛЛВЦ находит практическое применение в синтезе речи, анонимизации голоса и изменении голосовой идентичности. Использование архитектуры генеративных адверсарных сетей и методики знания устанавливает новый стандарт для открытых моделей голосового преобразования, придавая первостепенное значение эффективности. ЛЛВЦ имеет потенциал для персонализированного голосового преобразования путем настройки данных отдельного диктора. Расширение набора тренировочных данных для охвата многоязычной и шумной речи может улучшить адаптируемость модели к различным дикторам.