‘NetEase Youdao открывает исходный код EmotiVoice мощный и современный движок текста в речь’

NetEase Youdao разделяет исходный код EmotiVoice мощный и современный движок преобразования текста в речь

NetEase Youdao объявила о формальном выпуске открытого текстового движка “Yi Mo Sheng”: движка для преобразования текста в речь (TTS). Он доступен на GitHub. Веб-интерфейс и скрипты, которые он предлагает, позволяют генерировать результаты пакетами, что делает его идеальным для приложений, требующих эмоционального синтеза тембров.

Youdao создала этот текстовый движок. В настоящее время в нем есть более 2000 тембров и он поддерживает как китайский, так и английский языки. Кроме того, он содержит уникальную функцию синтеза эмоций, которые могут вызывать радость, волнение, печаль или гнев. А также множество выразительных голосовых выражений.

В отношении открытых текстовых движков, EmotiVoice находится на вершине игры. EmotiVoice имеет более 2000 уникальных голосов и может разговаривать на английском и китайском языках. Наиболее заметной функцией является эмоциональный синтез, который позволяет генерировать речь с широким спектром эмоций, включая счастье, желание, печаль, ярость и другие.

Доступен дружественный пользовательский интерфейс онлайн. Результаты могут быть сгенерированы массово через скриптовый интерфейс. Docker-образы упрощают тестирование EmotiVoice. Для работы необходим компьютер с графическим процессором NVidia. Если у вас его еще нет, установите NVidia контейнерную платформу на Linux или Windows WSL2.

В текущей системе подсказки управляют тем, как пользователь чувствует или действует. Он игнорирует пол в пользу акцента на тональности, темпе, интенсивности и страсти. Регулятор стиля/тембра, как и в оригинальном закрытом дизайне, может быть добавлен достаточно легко.

Пост NetEase Youdao открыл исходный код EmotiVoice: мощного и современного текстово-речевого движка появился сначала на MarkTechPost.