Гугл AI Research представляет Translatotron 3 новую архитектуру без обучения для преобразования речи в реч перевода.

Гугл AI Research представляет Translatotron 3 новая архитектура без обучения для преобразования речи в речевой перевод.

“`html

Автоматический перевод речи (S2ST) стал революционной технологией в преодолении языковых барьеров, но недостаток параллельных данных по речи препятствует ее развитию. Большинство существующих моделей требуют контролирующих настроек и испытывают трудности при изучении перевода и восстановления атрибутов речи на основе синтезированных тренировочных данных.

В переводе речи на речь предыдущие модели от Google AI, такие как Translatotron 1 и Translatotron 2, сделали заметные прогрессы, прямо переводя речь между языками. Однако эти модели имели ограничения, так как они полагались на контролируемую тренировку с использованием параллельных данных по речи. Ключевая проблема заключается в недостатке таких параллельных данных, что делает задачу обучения моделей S2ST сложной. В этом моменте появляется Translatotron 3 – революционное решение, представленное исследовательской группой Google.

Исследователи узнали, что большинство общедоступных наборов данных для перевода речи являются полу- или полностью синтезированными из текста, что создает дополнительные препятствия при обучении перевода и точного восстановления атрибутов речи, которые могут требовать более точного представления в тексте. В ответ на это Translatotron 3 представляет парадигмальный сдвиг, представляя концепцию неупорядоченного S2ST, которая стремится научиться переводу только с использованием одноязычных данных. Это инновационное решение расширяет потенциал перевода между различными языковыми парами и представляет возможность перевода не-текстовых атрибутов речи, таких как паузы, скорости речи и индивидуальность диктора.

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Архитектура Translatotron 3 разработана с тремя ключевыми аспектами, чтобы решить проблемы неупорядоченного S2ST:

  1. Предварительное обучение в качестве маскированного автоэнкодера с использованием SpecAugment: Вся модель предварительно обучается в качестве маскированного автоэнкодера, используя SpecAugment – простой метод аугментации данных для распознавания речи. SpecAugment работает с логарифмическим мел-спектрограммой входного аудио, повышая обобщающие способности энкодера.
  2. Неупорядоченное сопоставление вложений на основе многоязыковых неупорядоченных вложений (MUSE): Translatotron 3 использует технику MUSE, обученную на несопоставленных языках, которая позволяет модели изучить общее пространство вложений между исходным и целевым языками. Это общее пространство вложений облегчает более эффективное и эффективное кодирование входной речи.
  3. Восстановление потерь с помощью обратного перевода: Модель обучается с использованием комбинации потерь неупорядоченных вложений MUSE, потерь восстановления и потерь обратного перевода S2S. Во время вывода общий энкодер кодирует вход в многоязыковое пространство вложений, затем декодируется целевым языковым декодером.

Методология обучения Translatotron 3 состоит из автокодирования с восстановлением и термином обратного перевода. В первой части сеть обучается авто-кодированию в многоязыковое пространство вложений с использованием потерь MUSE и потерь восстановления. Эта фаза направлена на то, чтобы убедиться, что сеть генерирует значимые многоязыковые представления. Сеть также обучается переводить спектрограмму входного сигнала с использованием потери обратного перевода во второй части обучения. Чтобы обеспечить многоязыковую природу латентного пространства, потеря MUSE и потеря восстановления применяются на этой второй части обучения. SpecAugment применяется к входу энкодера в обеих фазах обучения, чтобы гарантировать изучение значимых свойств.

Эмпирическое оценивание Translatotron 3 демонстрирует его превосходство по сравнению с базовой каскадной системой, особенно в сохранении разговорных нюансов. Модель превосходит по качеству перевода, схожести дикторов и качеству речи. Несмотря на то, что это неупорядоченный метод, Translatotron 3 является устойчивым решением, демонстрирующим замечательные результаты по сравнению с существующими системами. Его способность достигать естественности речи, сопоставимой с образцами аудио настоящего качества, измеряемая средним баллом мнения (MOS), подчеркивает его эффективность в реальных сценариях.

“`

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

В решении проблемы набега прибывших саморукой S2ST из-за ограниченного количества параллельных данных, Translatotron 3 выступает как новаторское решение. Отчетливо усваивая информацию от одноязычных данных и используя MUSE, модель достигает высокого качества перевода и сохраняет существенные нематериальные речевые атрибуты. Исследовательская группа совершает значительный прогресс в передовом подходе, делая перевод речи на речь более универсальным и эффективным в различных языковых парах. Успех Translatotron 3 в превосходстве над существующими моделями демонстрирует его потенциал революционизировать эту сферу и усилить коммуникацию между различными языковыми сообществами. В будущей работе команда намерена расширить модель на больше языков и исследовать ее применимость в сценариях нулевого набега S2ST, что, возможно, расширит ее влияние на глобальную коммуникацию.