Как мосты Шредингера превосходят модели диффузии в синтезе речи из текста (TTS)?

Мосты Шредингера выше моделей диффузии в синтезе речи из текста (TTS)

С ростом количества достижений в области искусственного интеллекта, недавно большую популярность приобрели области обработки естественного языка, генерации естественного языка и компьютерного зрения, все благодаря внедрению крупных языковых моделей (LLM). Диффузионные модели, которые успешно производят синтез речи на основе текста, показали отличное качество генерации. Однако их априорное распределение ограничено представлением, вводящим шум и предлагающим мало информации о желаемой цели генерации.

В недавних исследованиях команда ученых из Университета Цинхуа и Майкрософт Рисерч Азия представила новую систему синтеза речи из текста под названием Bridge-TTS. Это первая попытка заменить зашумленное гауссовское априорное распределение, используемое в хорошо известных диффузионных методах синтеза речи, чистым и предсказуемым альтернативным вариантом. Это альтернативное априорное распределение содержит сильную структурную информацию о цели и берется из скрытого представления, извлеченного из входного текста.

Команда поделилась, что основным вкладом является разработка полностью управляемого моста Шрёдингера, который соединяет правильный мел-спектрограмму и чистое априорное распределение. Предложенный Bridge-TTS использует процесс от данных к данным, который улучшает информационное содержание предыдущего распределения, в отличие от диффузионных моделей, работающих через процесс от данных к шуму.

Команда оценила подход, и в ходе оценки эффективность предложенного метода была подчеркнута в результате экспериментальной проверки на наборе данных LJ-Speech. В настройках синтеза на 50 и 1000 шагов Bridge-TTS показал лучшую производительность по сравнению с диффузионным методом Grad-TTS. Он также продемонстрировал лучшую производительность в сценариях с небольшим числом шагов, чем крепкие и быстрые модели TTS. Основными преимуществами подхода Bridge-TTS были синтез и эффективность выборки.

Команда резюмировала основные вклады следующим образом:

  1. Были созданы мел-спектрограммы на основе несмешанного скрытого представления текста. В отличие от традиционного процесса от данных к шуму, это представление, которое функционирует в качестве информации о состоянии в контексте диффузионных моделей, создано без шума. Был использован мост Шрёдингера для исследования процесса от данных к данным.
  1. Для сопоставленных данных был предложен полностью исследуемый мост Шрёдингера. Этот мост использует гибкую форму стохастического дифференциального уравнения (СДУ) в качестве опоры. Этот метод позволяет эмпирическое исследование пространств проектирования, а также предоставляет теоретическое объяснение.
  1. Было изучено, как техника выборки, параметризация моделирования и расписание шума влияют на качество TTS. Также были реализованы асимметричное расписание шума, предсказание данных и выборки моста первого порядка.
  1. Полностью исследуемый мост Шрёдингера позволил полностью объяснить основные процессы. Было проведено эмпирическое исследование, чтобы понять, как различные элементы влияют на качество TTS, включая изучение эффектов асимметричного расписания шума, решений параметризации моделирования и эффективности процесса выборки.
  1. Метод показал отличные результаты по скорости вывода и качеству генерации. Метод значительно превзошел диффузионную модель Grad-TTS как при генерации на 1000 и 50 шагов. Он также показал лучшую производительность при генерации на 4 шага по сравнению с моделью FastGrad-TTS, моделью FastSpeech 2 на основе трансформера и современным подходом к дистилляции CoMoSpeech при генерации на 2 шага.
  1. Метод продемонстрировал выдающиеся результаты уже после одной тренировочной сессии. Это эффективность явно проявляется на разных этапах процесса создания, демонстрируя надежность и эффективность предложенного подхода.