Исследователи Microsoft представляют SpeechX универсальную модель генерации речи, способную выполнять TTS без обучения и различные задачи преобразования речи.

Researchers at Microsoft introduce SpeechX, a universal speech generation model capable of performing unsupervised TTS and various speech transformation tasks.

Множество приложений машинного обучения, включая текст, видение и звук, имеют быстрые и значительные разработки в технологии генеративных моделей. Промышленность и общество ощущают значительные эффекты этих разработок. Заметно, что генеративные модели с многомодальным вводом стали поистине инновационным развитием. Задача генерации речи из текста без обучения (zero-shot TTS) – это хорошо известная задача генерации речи в области речи, которая использует аудио-текстовый ввод. Используя только небольшой аудио-фрагмент от намеченного говорящего, zero-shot TTS включает преобразование текстового источника в речь с голосовыми качествами и манерой речи этого говорящего. В начальных исследованиях zero-shot TTS использовались фиксированные размерности векторов привязки к говорящему. Этот метод не эффективно поддерживал возможности клонирования говорящих и ограничивал его использование только для TTS.

Однако последние стратегии включают более широкие концепции, такие как предсказание замаскированной речи и языковое моделирование нейрокодеков. Эти передовые методы используют аудио от целевого говорящего без сжатия его в одномерное представление. В результате эти модели показывают новые возможности, такие как конверсия голоса и редактирование речи, в дополнение к их исключительной производительности zero-shot TTS. Эта увеличенная адаптивность может значительно расширить потенциал генеративных моделей речи. Несмотря на их удивительные достижения, у этих существующих генеративных моделей есть несколько ограничений, особенно при работе с разнообразными задачами генерации речи на основе аудио и текста, включая преобразование входной речи.

Например, текущие алгоритмы редактирования голоса ограничены обработкой только чистых сигналов и не способны изменять речевое содержание, сохраняя фоновой шум. Кроме того, обсуждаемый подход накладывает значительные ограничения на его практическую применимость, требуя, чтобы зашумленный сигнал был окружен чистыми сегментами речи для завершения подавления шума. Извлечение целевого говорящего – это задача, особенно полезная в контексте изменения нечистой речи. Извлечение целевого говорящего – это процесс удаления голоса целевого говорящего из смеси речи, содержащей несколько говорящих. Вы можете указать говорящего, воспроизведя небольшой фрагмент его речи. Как упоминалось ранее, текущее поколение генеративных моделей речи не может справиться с этой задачей, несмотря на ее потенциальную важность.

Для надежного восстановления сигнала в классических методах задач улучшения речи, таких как подавление шума и извлечение целевого говорящего, исторически использовались регрессионные модели. Однако эти ранние техники иногда требуют различных моделей-экспертов для каждой задачи, что не оптимально с учетом разнообразия акустических помех, которые могут возникнуть. Помимо небольших исследований, в основном сосредоточенных на определенных задачах улучшения речи, еще много работы предстоит сделать по созданию полных моделей улучшения речи на основе аудио и текста, использующих ссылочные транскрипции для производства понятной речи. Развитие аудио-текстовых генеративных моделей речи, интегрирующих возможности генерации и трансформации, приобретает критическую исследовательскую значимость в свете вышеупомянутых факторов и успешных прецедентов в других дисциплинах.

Рис. 1: Общая схема SpeechX. SpeechX использует языковую модель нейрокодека, обученную на тексте и акустическом потоке токенов, чтобы выполнять различные задачи генерации речи на основе аудио и текста, такие как подавление шума, удаление речи, извлечение целевого говорящего, zero-shot TTS, редактирование чистой речи и редактирование зашумленной речи. Для некоторых задач не требуется ввод текста.

Эти модели имеют широкие возможности для выполнения различных задач по генерации голоса. Они предлагают, что такие модели должны обладать следующими важными характеристиками:

• Гибкость: Единые модели генерации речи на основе аудио и текста должны быть способны выполнять различные задачи, требующие генерации голоса из аудио и текстовых входов, аналогично объединенным или основным моделям, созданным в других областях машинного обучения. В этих задачах следует включать не только zero-shot TTS, но и множество типов изменения речи, включая, например, увеличение речи и редактирование речи.

• Устойчивость: Поскольку единые модели могут быть использованы в акустически сложных контекстах, они должны проявлять устойчивость к различным акустическим искажениям. Эти модели могут быть полезны в реальных ситуациях, где фоновой шум является обычным, так как они обеспечивают надежную производительность.

• Расширяемость: Единые модели должны использовать гибкие архитектуры, чтобы обеспечить плавное расширение поддержки задач. Один из способов сделать это – предоставить место для новых компонентов, таких как дополнительные модули или входные токены. Благодаря этой гибкости модели будут лучше адаптироваться к новым задачам генерации речи. В этой статье исследователи из корпорации Microsoft представляют гибкую модель генерации речи, способную выполнять множество задач, таких как TTS с нулевым шагом, подавление шума с использованием дополнительного входа транскрипта, удаление речи, извлечение целевого диктора с использованием дополнительного входа транскрипта и редактирование речи для тихих и шумных акустических сред (рис. 1). Они называют их рекомендуемой моделью SpeechX1.

Как и VALL-E, SpeechX использует подход языкового моделирования, который генерирует коды модели нейрокодека или акустические токены на основе текстовых и акустических входов. Чтобы обеспечить обработку различных задач, они включают дополнительные токены в настройку обучения с множеством задач, где токены совместно определяют выполняемую задачу. Экспериментальные результаты, полученные с использованием 60К часов речевых данных из набора данных LibriLight в качестве обучающего набора, демонстрируют эффективность SpeechX и показывают сопоставимую или превосходящую производительность по сравнению с экспертными моделями во всех вышеуказанных задачах. Особенно SpeechX обладает новыми или расширенными возможностями, такими как сохранение фоновых звуков во время редактирования речи и использование ссылочных транскрипций для подавления шума и извлечения целевого диктора. Примеры аудио, демонстрирующие возможности предложенной модели SpeechX, доступны по адресу https://aka.ms/speechx.