Исследователи из Корейского университета представляют HierSpeech++ новаторский подход искусственного интеллекта для качественного и эффективного преобразования текста в речь и голоса.

Исследователи Корейского университета представляют HierSpeech++ новаторский подход искусственного интеллекта для качественного и эффективного преобразования текста в речь и голоса

Исследователи из Корейского университета разработали новый синтезатор речи под названием HierSpeech++. Это исследование направлено на создание синтетической речи, которая будет надежной, выразительной, естественной и похожей на человеческую речь. Команда стремилась достичь этого, не полагаясь на пару текст-речь данных, и улучшить недостатки существующих моделей. HierSpeech++ был разработан для преодоления разрыва в семантическом и акустическом представлении речи, что в конечном итоге улучшит адаптацию стиля.

До сих пор нулевая речевой синтез на основе LLM имел свои ограничения. Однако HierSpeech++ был разработан, чтобы решить эти ограничения, улучшить надежность и выразительность, а также решить проблемы, связанные с медленной скоростью вывода. С использованием текстово-векторного фреймворка, который генерирует самообучающуюся речь и F0 представления на основе текста и просодических подсказок, HierSpeech++ был признан превосходящим модели на основе LLM и диффузионных моделей. Эти улучшения в скорости, надежности и качестве делают HierSpeech++ мощным нулевым синтезатором речи.

HierSpeech++ использует иерархическую структуру для генерации речи без предварительного обучения. Он использует текстово-векторный фреймворк для разработки самообучающихся адресов и F0 представлений на основе текста и просодических подсказок. Речь производится с использованием иерархического вариационного автокодировщика и сгенерированного вектора, F0 и голосовой подсказки. Метод также включает эффективный фреймворк для улучшения разрешения речи. Комплексная оценка включает в себя различные предварительно обученные модели и реализации с использованием объективных и субъективных метрик, таких как логарифмическое расстояние по ошибке Мэла, оценка восприятия качества речи, тональность, периодичность, оценка голоса/безголосости, естественность, средняя оценка зрительного восприятия и MOS-оценка голосовой схожести.

Превосходная естественность синтетической речи достигается HierSpeech++ в нулевых сценариях, с улучшением надежности, выразительности и голосовой похожести. Для оценки естественности, средней оценки зрительного восприятия и MOS-оценки голосовой схожести были использованы субъективные метрики, и результаты показали, что HierSpeech++ превосходит речь с использованием истинной информации. Внедрение фреймворка для улучшения разрешения речи от 16 кГц до 48 кГц дополнительно улучшает естественность адреса. Экспериментальные результаты также показали, что иерархический вариационный автокодировщик в HierSpeech++ превосходит модели на основе LLM и диффузионные модели, делая его надежным нулевым синтезатором речи. Было также обнаружено, что нулевой синтез текст-речь с шумными подсказками подтвердил эффективность HierSpeech++ в генерации речи от неизвестных говорящих. Иерархический синтез также позволяет гибкую передачу просодии и стиля голоса, делая синтезированную речь еще более гибкой.

В заключение HierSpeech представляет собой эффективную и мощную платформу для достижения качества человеческого уровня в нулевом синтезе речи. Разделение семантического моделирования, синтеза речи, улучшения разрешения и облегчение передачи просодии и стиля голоса повышают гибкость синтезированной речи. Система демонстрирует улучшение надежности, выразительности, естественности и голосовой похожести даже с небольшим объемом данных и обеспечивает значительно более быструю скорость вывода. В данном исследовании также исследуются возможные расширения моделей кросс-языкового и эмоционально-управляемого синтеза речи.