Исследователи из Южной Кореи предлагают VITS2 прорыв в одноэтапных моделях текста в речь для улучшенной естественности и эффективности.

Researchers from South Korea propose VITS2 as a breakthrough in one-step text-to-speech models for improved naturalness and efficiency.

В статье представлен VITS2, модель одноэтапного преобразования текста в речь, которая синтезирует более естественную речь, улучшая различные аспекты предыдущих моделей. Модель решает проблемы, такие как периодическая неестественность, вычислительная эффективность и зависимость от преобразования фонем. Предложенные методы улучшают естественность, сходство с речевыми характеристиками в моделях с несколькими дикторами, а также эффективность обучения и вывода.

Сильная зависимость от преобразования фонем в предыдущих работах значительно снижена, что позволяет использовать полностью одноэтапный подход от начала до конца.

Предыдущие методы:

Двухэтапные системы с конвейером: Эти системы разделяли процесс генерации звуковых волн из входных текстов на два последовательных этапа. Первый этап производил промежуточные представления речи, такие как мел-спектрограммы или лингвистические признаки, на основе входных текстов. Второй этап затем генерировал исходные звуковые волны на основе этих промежуточных представлений. Эти системы имели ограничения, такие как передача ошибок от первого этапа ко второму, зависимость от человекоопределенных признаков, таких как мел-спектрограмма, и вычислительные затраты для генерации промежуточных признаков.

Одноэтапные модели: В последние годы активно исследовались одноэтапные модели, которые напрямую генерируют звуковые волны из входных текстов. Эти модели не только превзошли двухэтапные системы, но и продемонстрировали способность генерировать высококачественную речь, практически неотличимую от речи человека.

Условный вариационный автокодировщик с адверсарной обучением для одноэтапного преобразования текста в речь от J. Kim, J. Kong и J. Son является значимой предыдущей работой в области синтеза речи из текста. Этот предыдущий одноэтапный подход достиг большого успеха, но имел несколько проблем, включая периодическую неестественность, низкую эффективность предиктора длительности, сложный формат ввода, недостаточное сходство дикторов в моделях с несколькими дикторами, медленное обучение и сильную зависимость от преобразования фонем.

Основной вклад данной статьи заключается в решении проблем, обнаруженных в предыдущей одноэтапной модели, в частности, в проблеме, упомянутой в вышеприведенной успешной модели, а также внедрении улучшений для достижения более высокого качества и эффективности синтеза речи из текста.

Глубокие нейронные сети, основанные на тексте-в-речь, достигли значительных прогрессов. Основной задачей является преобразование дискретного текста в непрерывные звуковые волны, обеспечивая высококачественную речь. Предыдущие решения разделяли процесс на два этапа: производство промежуточных представлений речи из текстов и затем генерирование исходных звуковых волн на основе этих представлений. Одноэтапные модели активно изучались и превзошли двухэтапные системы. Цель статьи – решить проблемы, обнаруженные в предыдущих одноэтапных моделях.

В статье описываются улучшения в четырех областях: предсказание длительности, улучшенный вариационный автокодировщик с нормализующими потоками, поиск монотонного выравнивания и условный текстовый энкодер с учетом диктора. Предлагается стохастический предиктор длительности, обученный с помощью адверсарного обучения. Для выравнивания используется монотонный поиск выравнивания (MAS) с модификациями для улучшения качества. Модель вводит блок трансформатора в нормализующие потоки для захвата долгосрочных зависимостей. Проектируется текстовый энкодер с учетом диктора, чтобы лучше имитировать различные речевые характеристики каждого диктора.

Эксперименты проводились на наборе данных LJ Speech и наборе данных VCTK. В исследовании использовались как последовательности фонем, так и нормализованные тексты в качестве входных данных модели. Сети обучались с помощью оптимизатора AdamW, а обучение проводилось на графических процессорах NVIDIA V100. Были проведены тесты среднего мнения пользователей (MOS), чтобы оценить естественность синтезированной речи. Предложенный метод показал значительное улучшение качества синтезированной речи по сравнению с предыдущими моделями. Были проведены отсечение исследований для проверки действительности предложенных методов. Наконец, авторы продемонстрировали правильность своих предложенных методов через эксперименты, оценку качества и измерение скорости вычислений, но сообщили, что в области синтеза речи все еще существуют различные проблемы, которые следует решить, и надеются, что их работа может стать основой для будущих исследований.