Исследователи Microsoft представляют PromptTTS 2 Революционизируя текст в речь с улучшенной изменчивостью голоса и экономичной генерацией подсказок

Microsoft researchers introduce PromptTTS 2, revolutionizing text-to-speech with improved voice variability and efficient prompt generation.

Интеллигентность и естественность синтезированной речи улучшились благодаря последним достижениям в системах текст-в-речь. Были созданы масштабные системы TTS для настроек с несколькими дикторами, и некоторые системы TTS достигли качества, эквивалентного записям одного диктора. Несмотря на эти достижения, моделирование изменчивости голоса все еще сложно, так как разные способы произнесения одной и той же фразы могут передавать дополнительную информацию, такую как эмоция и тон. Традиционные техники TTS часто полагаются на информацию о дикторе или подсказки речи, чтобы имитировать изменчивость голоса. Однако эти техники неудобны для пользователя, поскольку идентификатор диктора заранее определен, и подходящую подсказку речи сложно найти или она не существует. 

Более перспективным подходом для моделирования изменчивости голоса является использование текстовых подсказок, которые определяют особенности голоса, так как естественный язык является удобным интерфейсом для пользователей для передачи их намерения в отношении производства звука. Эта стратегия позволяет легко создавать голоса с использованием текстовых подсказок. Системы TTS на основе текстовых подсказок обычно обучаются с использованием набора данных речи и текстовой подсказки, соответствующей ей. Текстовая подсказка, описывающая изменчивость или стиль голоса, используется для условия, как модель генерирует голос. 

Системы TTS на основе текстовых подсказок продолжают сталкиваться с двумя основными проблемами: 

Проблема один-ко-многим: Поскольку качество звука варьируется от человека к человеку, сложно с точностью передать все аспекты речи в письменных инструкциях. Различные образцы голоса неизбежно могут соотноситься с одной и той же подсказкой. Проблема один-ко-многим делает обучение модели TTS более сложным и может привести к переобучению или коллапсу режима. Насколько им известно, не было разработано процедур, созданных специально для решения проблемы один-ко-многим в системах TTS на основе текстовых подсказок.

Проблема масштаба данных: Поскольку текстовые подсказки редки в Интернете, составление набора данных текстовых подсказок, определяющих звук, не является простой задачей. 

В результате компании нанимаются для создания подсказок, что является дорогостоящим и затратным по времени. Наборы данных подсказок обычно небольшие или частные, что затрудняет дальнейшие исследования по системам TTS на основе подсказок. В своей работе они предлагают PromptTTS 2, который предлагает вариационную сеть для моделирования информации об изменчивости голоса речи, не учтенной подсказками. Он использует большую языковую модель для создания высококачественных подсказок для преодоления вышеозначенных проблем. Они предлагают вариационную сеть для прогнозирования недостающей информации об изменчивости голоса из текстовой подсказки для проблемы один-ко-многим. Справочная речь, считающаяся содержащей всю информацию об изменчивости голоса, используется для обучения вариационной сети. 

В состав модели TTS в PromptTTS 2 входят кодировщик текстовых подсказок для текстовых подсказок, кодировщик справочной речи для справочной речи и модуль TTS для синтеза речи на основе извлеченных представлений кодировщика текстовых подсказок и кодировщика справочной речи. На основе непосредственного представления от кодировщика текстовых подсказок 3 обучается вариационная сеть для прогнозирования представления справки от кодировщика голоса. Они могут изменять качество синтезированной речи, используя модель диффузии в вариационной сети для выбора разнообразной информации об изменчивости голоса из гауссовского шума, условного текстовыми подсказками, что дает пользователям больше свободы при создании голосов.

Исследователи из Microsoft предлагают конвейер для автоматического создания текстовых подсказок для речи с использованием модели понимания речи для распознавания голосовых характеристик из речи и большой языковой модели для создания текстовых подсказок в зависимости от результатов распознавания, чтобы решить проблему масштаба данных. В частности, они используют модель понимания речи для определения значений атрибутов для каждого образца речи внутри набора данных речи для описания голоса по различным характеристикам. Текстовая подсказка затем создается путем объединения этих фраз, с описанием каждого атрибута в своем предложении. В отличие от предыдущих исследований, которые полагались на поставщиков для создания и объединения фраз, PromptTTS 2 использует массивные языковые модели, которые доказали свою способность выполнять различные задачи на уровне, сравнимом с человеком. 

Они предоставляют LLM инструкции для написания отличных подсказок, включающих характеристики и связывающих фразы в полную подсказку. Благодаря этому полностью автоматизированному рабочему процессу нет необходимости в человеческом вмешательстве при создании подсказок. Ниже приведено краткое изложение вклада этой статьи: 

• Для решения проблемы один-ко-многим в системах TTS на основе текстовых подсказок они создают вариационную сеть на основе модели диффузии для описания изменчивости голоса, не учтенной текстовой подсказкой. Изменчивость голоса может быть управляема путем выбора образцов из различных гауссовских шумов, условных текстовыми подсказками во время вывода. 

• Они создают и публикуют набор данных текстовых подсказок, созданный конвейером для создания текстовых подсказок и большой языковой моделью. Конвейер снижает зависимость от поставщиков, создавая подсказки высокого качества. 

• Используя 44 тысячи часов речевых данных, они тестируют PromptTTS 2 на значительном наборе речевых данных. Согласно экспериментальным результатам, PromptTTS 2 превосходит ранние исследования в создании голосов, которые более точно соответствуют текстовому приглашению, одновременно ограничивая вариабельность голоса путем выборки из гауссовского шума.