Гугл AI Research представляет Translatotron 3 новую архитектуру без обучения для преобразования речи в реч перевода.
Гугл AI Research представляет Translatotron 3 новая архитектура без обучения для преобразования речи в речевой перевод.
“`html
Автоматический перевод речи (S2ST) стал революционной технологией в преодолении языковых барьеров, но недостаток параллельных данных по речи препятствует ее развитию. Большинство существующих моделей требуют контролирующих настроек и испытывают трудности при изучении перевода и восстановления атрибутов речи на основе синтезированных тренировочных данных.
В переводе речи на речь предыдущие модели от Google AI, такие как Translatotron 1 и Translatotron 2, сделали заметные прогрессы, прямо переводя речь между языками. Однако эти модели имели ограничения, так как они полагались на контролируемую тренировку с использованием параллельных данных по речи. Ключевая проблема заключается в недостатке таких параллельных данных, что делает задачу обучения моделей S2ST сложной. В этом моменте появляется Translatotron 3 – революционное решение, представленное исследовательской группой Google.
Исследователи узнали, что большинство общедоступных наборов данных для перевода речи являются полу- или полностью синтезированными из текста, что создает дополнительные препятствия при обучении перевода и точного восстановления атрибутов речи, которые могут требовать более точного представления в тексте. В ответ на это Translatotron 3 представляет парадигмальный сдвиг, представляя концепцию неупорядоченного S2ST, которая стремится научиться переводу только с использованием одноязычных данных. Это инновационное решение расширяет потенциал перевода между различными языковыми парами и представляет возможность перевода не-текстовых атрибутов речи, таких как паузы, скорости речи и индивидуальность диктора.
- Starling-7B LLM с обучением с подкреплением от обратной связи искусственного интеллекта
- Исследователи Max Planck представляют PoseGPT фреймворк искусственного интеллекта, использующий модели большого языка (LLM) для понимания и вывода о трехмерных позах человека по изображениям или текстовым описаниям.
- Это исследование искусственного интеллекта представляет технологию Photo-SLAM повышение реалистичного режима картографирования в реальном времени на портативных устройствах.
Архитектура Translatotron 3 разработана с тремя ключевыми аспектами, чтобы решить проблемы неупорядоченного S2ST:
- Предварительное обучение в качестве маскированного автоэнкодера с использованием SpecAugment: Вся модель предварительно обучается в качестве маскированного автоэнкодера, используя SpecAugment – простой метод аугментации данных для распознавания речи. SpecAugment работает с логарифмическим мел-спектрограммой входного аудио, повышая обобщающие способности энкодера.
- Неупорядоченное сопоставление вложений на основе многоязыковых неупорядоченных вложений (MUSE): Translatotron 3 использует технику MUSE, обученную на несопоставленных языках, которая позволяет модели изучить общее пространство вложений между исходным и целевым языками. Это общее пространство вложений облегчает более эффективное и эффективное кодирование входной речи.
- Восстановление потерь с помощью обратного перевода: Модель обучается с использованием комбинации потерь неупорядоченных вложений MUSE, потерь восстановления и потерь обратного перевода S2S. Во время вывода общий энкодер кодирует вход в многоязыковое пространство вложений, затем декодируется целевым языковым декодером.
Методология обучения Translatotron 3 состоит из автокодирования с восстановлением и термином обратного перевода. В первой части сеть обучается авто-кодированию в многоязыковое пространство вложений с использованием потерь MUSE и потерь восстановления. Эта фаза направлена на то, чтобы убедиться, что сеть генерирует значимые многоязыковые представления. Сеть также обучается переводить спектрограмму входного сигнала с использованием потери обратного перевода во второй части обучения. Чтобы обеспечить многоязыковую природу латентного пространства, потеря MUSE и потеря восстановления применяются на этой второй части обучения. SpecAugment применяется к входу энкодера в обеих фазах обучения, чтобы гарантировать изучение значимых свойств.
Эмпирическое оценивание Translatotron 3 демонстрирует его превосходство по сравнению с базовой каскадной системой, особенно в сохранении разговорных нюансов. Модель превосходит по качеству перевода, схожести дикторов и качеству речи. Несмотря на то, что это неупорядоченный метод, Translatotron 3 является устойчивым решением, демонстрирующим замечательные результаты по сравнению с существующими системами. Его способность достигать естественности речи, сопоставимой с образцами аудио настоящего качества, измеряемая средним баллом мнения (MOS), подчеркивает его эффективность в реальных сценариях.
“`
В решении проблемы набега прибывших саморукой S2ST из-за ограниченного количества параллельных данных, Translatotron 3 выступает как новаторское решение. Отчетливо усваивая информацию от одноязычных данных и используя MUSE, модель достигает высокого качества перевода и сохраняет существенные нематериальные речевые атрибуты. Исследовательская группа совершает значительный прогресс в передовом подходе, делая перевод речи на речь более универсальным и эффективным в различных языковых парах. Успех Translatotron 3 в превосходстве над существующими моделями демонстрирует его потенциал революционизировать эту сферу и усилить коммуникацию между различными языковыми сообществами. В будущей работе команда намерена расширить модель на больше языков и исследовать ее применимость в сценариях нулевого набега S2ST, что, возможно, расширит ее влияние на глобальную коммуникацию.