Google AI предлагает простую и эффективную модель преобразования текста в речь E3-TTS на основе диффузии
Google AI предлагает простую и эффективную модель E3-TTS на основе диффузии для преобразования текста в речь
В машинном обучении диффузионная модель является генеративной моделью, которая часто используется для задач генерации изображений и звука. Диффузионная модель использует процесс диффузии, преобразуя сложное распределение данных в более простые распределения. Основное преимущество заключается в его способности генерировать высококачественные результаты, особенно в задачах, таких как синтез изображений и звука.
В контексте систем преобразования текста в речь (TTS) применение диффузионных моделей показало заметное улучшение по сравнению с традиционными системами TTS. Прогресс достигается благодаря возможности решать проблемы, с которыми сталкиваются существующие системы, такие как сильная зависимость от качества промежуточных признаков и сложность, связанная с развертыванием, обучением и настройкой процедур.
Команда исследователей из Google разработала E3 TTS: Easy End-to-End Diffusion-based Text to Speech. Эта модель преобразования текста в речь основывается на процессе диффузии для сохранения временной структуры. Благодаря этому подходу модель может принимать обычный текст на входе и непосредственно генерировать аудио-волны.
- Флаггирование вредоносного контента с использованием обнаружения токсичности Amazon Comprehend
- Познакомьтесь с GraphCast от DeepMind прорыв в прогнозировании погоды при помощи машинного обучения
- Эта статья искусственного интеллекта предоставляет всесторонний обзор и обсуждение различных типов утечек в системах машинного обучения
Модель E3 TTS эффективно обрабатывает входной текст в неавторегрессивном стиле, что позволяет ей выдавать аудио-волну напрямую без последовательной обработки. Кроме того, определение идентификаторов и выравнивание происходит динамически во время диффузии. Эта модель состоит из двух основных модулей: Предварительно обученная модель BERT используется для извлечения соответствующей информации из входного текста, и модель диффузии UNet обрабатывает выходные данные от BERT. Она итеративно уточняет начальную зашумленную аудио-волну, наконец, предсказывая окончательную сырую аудио-волну.
E3 TTS использует итеративный процесс улучшения для генерации аудио-волны. Он моделирует временную структуру аудио-волны с использованием процесса диффузии, позволяя гибкие латентные структуры в данном аудио без необходимости дополнительной информации для условий.
Он строится на предварительно обученной модели BERT. Кроме того, система функционирует без использования речевых представлений, таких как фонемы или графемы. Модель BERT принимает подсловный вход, и ее выход обрабатывается структурой 1D U-Net. Она включает в себя блоки уменьшения и увеличения выборки, соединенные остаточной связью.
E3 TTS использует текстовые представления от предварительно обученной модели BERT, опираясь на современные разработки в области больших языковых моделей. E3 TTS полагается на предварительно обученную текстовую языковую модель, упрощая процесс генерации.
Универсальность системы увеличивается, так как данную модель можно обучать на многих языках, используя текстовый ввод.
Структура U-Net, используемая в E3 TTS, включает в себя серию блоков уменьшения и увеличения выборки, соединенных остаточной связью. Для улучшения извлечения информации из выходных данных от BERT в верхних блоках уменьшения/увеличения выборки внедрен механизм кросс-внимания. В нижних блоках используется адаптивное ядро сверточной нейронной сети (CNN) softmax, размер которого определяется временным шагом и диктором. Встраивание диктора и временного шага сочетается через Линейную Функцию Поэлементной Модуляции (FiLM), которая включает в себя составной слой для масштабирования и предсказания смещения по каналу.
Снижающий выборку блок в E3 TTS играет ключевую роль в улучшении качества путем уточнения шумной информации, преобразуя ее от 24 кГц к последовательности схожей длины с закодированным выходом от BERT, что значительно повышает общее качество. Напротив, увеличивающий выборку блок предсказывает шум с той же длиной, что и входная аудио-волна.
В заключение, E3 TTS продемонстрировал способность генерировать аудио высокого качества, достигая значительного уровня качества в этой области.</p