СтильТТС 2 Текст в речь человеческого уровня с использованием больших моделей речевого языка

Превращая текст в речь совершенствование навыков коммуникации с помощью передовых моделей речевого языка

Благодаря увеличению числа подходов к синтезу естественной и синтетической речи, одним из главных достижений индустрии ИИ (искусственного интеллекта) за последние несколько лет стало создание эффективных фреймворков для синтеза речи из текста с потенциальными применениями в различных отраслях, включая аудиокниги, виртуальных ассистентов, озвучивание ролей и многое другое. Некоторые современные модели обладают производительностью и эффективностью на уровне человека в широком спектре задач, связанных с речью. Вместе с тем, несмотря на их высокую производительность, все еще есть место для улучшений в задачах, связанных с выразительной и разнообразной речью, необходимостью большого количества обучающих данных для оптимизации нулевой модели синтеза речи из текста и устойчивости к нераспределенным текстам (не входящим в обучающие данные), что мотивирует разработчиков работать над более надежным и доступным фреймворком для синтеза речи из текста.

В этой статье мы рассмотрим StyleTTS-2, надежный и инновационный фреймворк для синтеза речи из текста, основанный на фреймворке StyleTTS, который представляет следующий шаг в создании передовых систем синтеза речи. Фреймворк StyleTTS-2 моделирует стили речи как скрытые случайные переменные и использует вероятностную модель диффузии для выборки этих стилей речи или случайных переменных, что позволяет FrameTTS-2 эффективно синтезировать реалистичную речь без использования аудиовходных данных. Благодаря такому подходу фреймворк StyleTTS-2 демонстрирует лучшие результаты и высокую эффективность по сравнению с современными фреймворками для синтеза речи из текста, а также может использовать разнообразие синтеза речи, предлагаемое моделями диффузии. Мы рассмотрим фреймворк StyleTTS-2 более подробно, обсудим его архитектуру и методологию, а также посмотрим на достигнутые им результаты. Итак, приступим.

StyleTTS-2 для синтеза речи из текста: Введение

StyleTTS-2 – инновационная модель синтеза речи из текста, представляющая собой следующий шаг в развитии фреймворков TTS, приближающихся к человеческому уровню. Она основана на модели StyleTTS, являющейся моделью генерации речи на основе стиля. Фреймворк StyleTTS-2 моделирует стили речи как скрытые случайные переменные и использует вероятностную модель диффузии для выборки этих стилей речи или случайных переменных, что позволяет фреймворку StyleTTS-2 эффективно синтезировать реалистичную речь без использования аудиовходных данных. Моделирование стилей как скрытых случайных переменных отличает фреймворк StyleTTS-2 от его предшественника, фреймворка StyleTTS, и позволяет сгенерировать наиболее подходящий стиль речи для входного текста без необходимости использования аудиовходных данных и одновременно использовать возможности разнообразного синтеза речи, предлагаемые моделями диффузии. Кроме того, фреймворк StyleTTS-2 также использует предварительно обученные крупномасштабные модели языка речи (SLM) в качестве дискриминаторов, например, фреймворк WavLM, и сочетает их с собственным новаторским подходом моделирования длительности для обучения фреймворка от начала до конца и, в конечном счете, для генерации речи с улучшенной естественностью. Благодаря принятому подходу, фреймворк StyleTTS-2 превосходит современные фреймворки для задач генерации речи и является одним из наиболее эффективных фреймворков для предварительного обучения крупномасштабных моделей речи в режиме нулевой адаптации для задач адаптации к спикеру.

Далее, для достижения синтеза речи на уровне человека фреймворк StyleTTs2 включает в себя опыт, полученный от существующих работ, включая модели диффузии для синтеза речи и крупномасштабные модели языка речи. Модели диффузии обычно используются для задач синтеза речи благодаря своей способности контролировать речь в деталях и предлагать разнообразные способы синтеза речи. Однако модели диффузии не так эффективны, как основанные на ГАН (генеративно-состязательные сети) неитеративные фреймворки, и одной из основных причин является необходимость итеративной выборки скрытых представлений, волн и мел-спектрограмм с целью достижения нужной длительности речи.

С другой стороны, последние исследования крупномасштабных моделей языка речи указывают на их способность улучшать качество задач генерации речи из текста и адаптироваться к спикеру. Крупномасштабные модели языка речи обычно преобразуют текстовый ввод в квантованные или непрерывные представления, полученные из предварительно обученных моделей языка речи, для задач восстановления речи. Однако признаки этих моделей языка речи не оптимизированы для синтеза речи непосредственно. В отличие от этого, фреймворк StyleTTS-2 использует знания, полученные от крупномасштабных моделей языка речи, используя обучение с применением адверсариальных методов для синтеза признаков моделей языка речи без использования скрытых пространственных карт, и, таким образом, обучает скрытое пространство оптимизировано для синтеза речи.

StyleTTS2: Архитектура и методология

В основе своей StyleTTS2 построена на своем предшественнике – фреймворке StyleTTS, который является неавторегрессионным фреймворком текст в речь, использующим кодер стиля для вывода вектора стиля из ссылочного аудио, что позволяет генерировать выразительную и естественную речь. Вектор стиля, используемый в фреймворке StyleTTS, интегрируется непосредственно в кодер, продолжительность и предсказатели с использованием AdaIN или Adaptive Instance Normalization, что позволяет модели StyleTTS генерировать речевые выходы с разной интонацией, продолжительностью и даже эмоциями. Фреймворк StyleTTS состоит из 8 моделей всего, которые разделены на три категории

  1. Акустические модели или система генерации речи с кодером стиля, кодером текста и декодером речи.
  2. Система прогнозирования речи с использованием предсказателей интонации и продолжительности.
  3. Утилитарная система, включающая выравнивание текста, извлечение тона и дискриминатор для обучения.

Благодаря своему подходу фреймворк StyleTTS обеспечивает передовую производительность в области контролируемого и разнообразного синтеза речи. Однако эта производительность имеет свои недостатки, такие как ухудшение качества выборки, ограничения выразительности и зависимость от приложений, затрудняющих речь, в реальном времени.

Улучшая фреймворк StyleTTS, модель StyleTTS2 обеспечивает улучшенные задачи выразительного текст в речь с улучшенной производительностью вне диапазона и высоким качеством на уровне человека. Фреймворк StyleTTS2 использует полноценный процесс обучения, оптимизируя различные компоненты с помощью адверсариального обучения и прямого синтеза волны совместно. В отличие от фреймворка StyleTTS, фреймворк StyleTTS2 моделирует речевой стиль как латентную переменную и выбирает ее с помощью моделей диффузии, что позволяет генерировать разнообразные речевые выборки без использования ссылочного аудио. Посмотрим подробнее на эти компоненты.

Конец-концов обучение для вмешательства

В фреймворке StyleTTS2 используется конец-концовый подход к обучению для оптимизации различных компонентов текста в речь для вмешательства без необходимости полагаться на фиксированные компоненты. Фреймворк StyleTTS2 достигает этого путем модификации декодера для прямой генерации волны из вектора стиля, кривых тона и энергии, и выровненных представлений. Фреймворк затем удаляет последний слой проекции декодера и заменяет его декодером волны. Фреймворк StyleTTS2 использует два кодера: декодер на основе HifiGAN для прямой генерации волны и декодер на основе iSTFT для создания фазы и амплитуды, которые преобразуются в волны для более быстрого вмешательства и обучения.

Приведенная выше фигура представляет собой использованные модели акустики для предварительного и совместного обучения. Для сокращения времени обучения модули сначала оптимизируются в предварительной фазе, а затем оптимизируются все компоненты, кроме извлекателя тона, во время совместного обучения. Причина, по которой совместное обучение не оптимизирует извлекатель тона, заключается в том, что он используется для получения истинной зависимости для кривых тона.

Приведенная выше фигура представляет собой враждебное обучение модели речевой языковой модели и вмешательство с фреймворком WavLM, предварительно обученным, но не отрегулированным. Процесс отличается от описанного выше тем, что он может принимать различные входные тексты, но накапливает градиенты для обновления параметров в каждом пакете.

Распространение стиля

Фреймворк StyleTTS2 стремится моделировать речь как условное распределение через латентную переменную, которая следует условному распределению, и эта переменная называется обобщенным речевым стилем и представляет любую характеристику в образце речи за пределами какого-либо фонетического содержания, включая лексический удар, интонацию, скорость произношения и даже переходы формант.

Дискриминаторы речевой языковой модели

Речевые языковые модели известны своими общими способностями к кодированию ценной информации о широком спектре семантики и акустических аспектов, и представления SLM традиционно могли подражать человеческому восприятию для оценки качества сгенерированной синтезированной речи. Фреймворк StyleTTS2 использует подход враждебного обучения для использования способности кодировщиков SLM выполнять создающие задачи, и использует 12-слойный фреймворк WavLM в качестве дискриминатора. Этот подход позволяет фреймворку выполнять обучение на текстах извне диапазона, что может помочь улучшить производительность. Кроме того, для предотвращения проблемы переобучения фреймворк выбирает тексты извне диапазона и внутреннего распределения с равной вероятностью.

Моделирование дифференцируемой длительности

Традиционно в текстовых до звуковых системах используется прогнозирование длительности, которая определяет продолжительность фонем. Однако методы увеличения частоты дискретизации, используемые этими прогнозаторами, часто блокируют градиентный поток во время процесса обучения end-to-end (от исходного до конечного результата), и фреймворк NaturalSpeech использует в качестве апсемплирования внимательное повышение качества для конвертации текста в речь на человеческом уровне. Однако фреймворку StyleTTS2 этот подход кажется нестабильным во время адверсивного обучения из-за применения дифференцируемого апсемплирования с различным адверсивным обучением без потери более высоких параметров из-за несоответствия длительности из-за отклонений. Хотя использование метода мягкой динамической временной адаптации может помочь смягчить это несоответствие, его использование не только затратно с вычислительной точки зрения, но и вызывает проблемы стабильности при работе с адверсивными целями или задачами по восстановлению мела. Поэтому фреймворк StyleTTC2 для достижения производительности на уровне человека с адверсивным обучением и стабилизации процесса обучения использует не параметрический подход к апсемплированию. Гауссово апсемплирование является популярным не параметрическим подходом для преобразования предсказанных длительностей, хотя у него есть свои ограничения из-за фиксированной длины заранее определенных гауссовских ядер. Это ограничение при гауссовом апсемплировании ограничивает его способность точно моделировать выравнивания с различными длинами.

Для преодоления этого ограничения фреймворк StyleTTC2 предлагает использовать новый не параметрический подход к апсемплированию без дополнительного обучения и способный учитывать различные длины выравниваний. Для каждой фонемы фреймворк StyleTTC2 моделирует выравнивание как случайную величину и указывает индекс речевого кадра, с которым фонема выравнивается.

Обучение и оценка модели

Фреймворк StyleTTC2 обучается и экспериментирует на трех наборах данных: VCTK, LibriTTS и LJSpeech. Одноголосовая составляющая фреймворка StyleTTS2 обучается с использованием набора данных LJSpeech, содержащего около 13 000 аудиофайлов, разделенных на 12 500 обучающих файлов, 100 проверочных файлов и почти 500 тестовых файлов, с общей продолжительностью около 24 часов. Многоголосовая составляющая фреймворка обучается на наборе данных VCTK, состоящем из более чем 44 000 аудиофайлов с более чем 100 отдельными носителями родного языка с разными акцентами, который разделен на 43 500 обучающих файлов, 100 файлов проверки и почти 500 тестовых файлов. Наконец, для обеспечения возможностей нулевого приспособления фреймворк обучается на объединенном наборе данных LibriTTS, включающем аудиофайлы общей продолжительностью около 250 часов с более чем 1 150 отдельными носителями речи. Для оценки его производительности модель использует две метрики: MOS-N или средний оценочный балл естественности и MOS-S или средний оценочный балл сходства.

Результаты

Подход и методология, используемые в фреймворке StyleTTS2, проявляются в его производительности, поскольку модель превосходит несколько современных фреймворков TTS, особенно на наборе данных NaturalSpeech, и, тем самым, устанавливает новый стандарт для этого набора данных. Кроме того, фреймворк StyleTTS2 превосходит современный фреймворк VITS на наборе данных VCTK, и результаты демонстрируются на следующем графике.

Модель StyleTTS2 также превосходит предыдущие модели на наборе данных LJSpeech, и она не проявляет никакой степени снижения качества на внешних или распределенных текстах, что проявлялось в предыдущих фреймворках с использованием тех же метрик. Кроме того, в условиях нулевого приспособления модель StyleTTC2 превосходит существующий фреймворк Vall-E по натуральности, хотя уступает ему в сходстве. Однако стоит отметить, что фреймворк StyleTTS2 может достигать конкурентоспособной производительности, обучаясь только на 245 часах аудиофайлов по сравнению с более чем 60 тыс. часов обучения для Vall-E, что подтверждает, что StyleTTC2 является эффективным способом работы с данными по сравнению с существующими методами больших предварительных обучений, используемыми в Vall-E.

Двигаясь дальше, из-за отсутствия помеченных эмоций аудио-текстовых данных, фреймворк StyleTTC2 использует модель GPT-4 для генерации более 500 примеров различных эмоций для визуализации векторов стиля, которые фреймворк создает с помощью процесса диффузии.

На первой фигуре показаны эмоциональные стили в ответ на чувствительность к текстовому вводу, и она демонстрирует способность фреймворка StyleTTC2 синтезировать выразительную речь с различными эмоциями. Вторая фигура изображает отдельные кластеры для каждого из пяти отдельных дикторов, что означает широкий диапазон разнообразия, полученный из одного аудиофайла. Последняя фигура демонстрирует свободный кластер эмоций от диктора 1 и показывает, что, несмотря на некоторые перекрытия, кластеры, основанные на эмоциях, являются заметными, что указывает на возможность влияния на эмоциональный тон диктора независимо от образца аудио и его входного тона. Несмотря на использование подхода на основе диффузии, фреймворк StyleTTS2 превосходит существующие передовые фреймворки, включая VITS, ProDiff и FastDiff.

Заключительные мысли

В этой статье мы говорили о StyleTTS2 – новом, надежном и инновационном фреймворке для преобразования текста в речь, который основан на фреймворке StyleTTS и стремится представить следующий шаг в направлении передовых систем преобразования текста в речь. Фреймворк StyleTTS2 моделирует стили речи как латентные случайные переменные и использует вероятностную модель диффузии для выборки этих стилей речи или случайных переменных, что позволяет фреймворку StyleTTS2 эффективно синтезировать реалистичную речь без использования образцов аудио. Фреймворк StyleTTS2 использует диффузию стиля и дискриминаторы SLM для достижения человекоподобной производительности при выполнении задач преобразования текста в речь и превосходит существующие передовые фреймворки на широком спектре речевых задач.