Познакомьтесь с SeamlessM4T новой основной моделью Meta AI для перевода речи

Знакомьтесь с SeamlessM4T - новой основной моделью Meta AI для речевого перевода.

Модель обеспечивает уникальную архитектуру и прорывную производительность в различных задачах речевого перевода.

Создано с использованием Midjourney

Недавно я начал образовательную рассылку, посвященную искусственному интеллекту, которая уже имеет более 160 000 подписчиков. TheSequence – это информативная рассылка о машинном обучении, которую можно прочитать за 5 минут. Цель состоит в том, чтобы быть в курсе последних проектов машинного обучения, научных статей и концепций. Попробуйте подписаться ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник для быть в курсе разработок в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

Речь быстро становится одной из следующих границ фундаментальных моделей. В то время как области, такие как язык и компьютерное зрение, все еще доминируют в заголовках, речь становится все более важной областью. Области, такие как перевод речи на речь (S2ST), полагались на каскадные архитектуры, объединяющие большое количество компонентов для поэтапного выполнения перевода. Результатом является то, что в этой области прогресс не так заметен, как в других областях фундаментальных моделей. Недавно Meta AI Research представила исследование SeamlessM4T — массового многоязычного и мультимодального машинного перевода, объединенной речевой фундаментальной модели для различных задач перевода речи.

В современной экосистеме фундаментальных моделей существующие системы машинного перевода (MT) в основном основаны на тексте, не уделяя должного внимания поддержке речи, если она существует вообще. Интеграция речи в ландшафт МТ часто занимает второстепенное положение по сравнению с текстовыми аналогами. Несмотря на достижения отдельных унимодальных моделей, реализация объединенных моделей S2ST, достигающих сопоставимой ширины и эффективности, остается далекой. Это различие, основанное на модальностях, можно объяснить различными факторами, но недостаток аудиоданных и ограничения моделирования по-прежнему являются основными препятствиями. Сложность, которая делает речь более сложным занятием с точки зрения МТ — ее способность кодировать более богатую информацию и выразительные элементы — также делает ее превосходной в передаче намерений и развитии прочных социальных связей между участниками разговора.

Текущая картина таких систем характеризуется тремя основными недостатками.

1. Фокус моделей перевода речи в основном сосредоточен на языках с высокими ресурсами, таких как английский, испанский и французский, часто игнорируя языки с низкими ресурсами.

2. Они в основном ориентированы на перевод с исходных языков на английский, а не в обратном направлении.

3. Большинство систем S2ST в настоящее время тяготеет к каскадным структурам, состоящим из нескольких последовательных подсистем, выполняющих перевод этапами — начиная с автоматического распознавания речи (ASR), переходя к T2TT и заканчивая синтезом речи в виде трехуровневой архитектуры.

Попытки объединить эти многофункциональные возможности в единое согласованное целое привели к появлению первых версий систем перевода речи с конца в конец. Однако эти системы до сих пор не соответствуют показателям производительности, установленным их каскадными аналогами.

SeamlessM4T

SeamlessM4T (Массовый многоязычный и мультимодальный машинный перевод) – это интегрированная платформа, объединяющая ASR, T2TT, перевод речи в текст (S2TT), перевод текста в речь (T2ST) и функциональности S2ST. Модель основана на долгой истории прорывов Meta AI в области перевода речи. В частности, Meta AI представила No Language Left Behind (NLLB) в предыдущем году – модель машинного перевода текста в текст, охватывающая впечатляющие 200 языков. В следующие месяцы Meta AI продемонстрировала революционный Universal Speech Translator. Эта передовая система облегчила прямой перевод речи на речь для хоккьенского языка, который характеризуется отсутствием широко принятой системы письма. В результате этого было создано SpeechMatrix, величественный многоязычный набор данных для перевода речи на речь. Этот набор данных, рожденный от инноваций SpeechLASER, стал вехой в области обучения с учителем. В начале текущего года был представлен еще один значительный шаг с раскрытием возможностей Massively Multilingual Speech. Это обширное решение включало возможности автоматического распознавания речи, идентификации языка и синтеза речи, охватывая более 1 100 языков.

Изображение: Meta AI

SeamlessM4T возникает, синтезируя идеи, полученные из этих различных проектов. Результатом является трансформационный многоязычный и мультимодальный опыт перевода, исходящий от единой модели. Эта модель тщательно создана, черпая из обширного спектра источников устной речи и приводя к современным результатам.

Для создания единой модели Meta AI требуется легкая наборная инструментальная среда моделирования последовательностей, которая может без проблем интегрироваться с другими современными библиотеками экосистемы PyTorch. Чтобы удовлетворить эту потребность, Meta AI переработала fairseq, свою исходную инструментальную среду моделирования последовательностей. Включая более эффективное моделирование и загрузчики данных API, fairseq2 сейчас играет важную роль в движении основных моделирующих процессов SeamlessM4T.

Изображение: Meta AI

В основе модели лежит архитектура многофункциональной модели UnitY, разработанная для выполнения широкого спектра функций, включая генерацию переведенного текста и речи. Эта архитектура также облегчает автоматическое распознавание речи, перевод текста-текста, преобразование текста в речь, перевод речи в текст и перевод речи в речь – функции, которые уже присущи ванильной модели UnitY. Многофункциональная модель UnitY структурирована вокруг трех основных последовательных компонентов. Текстовые и речевые кодировщики ответственны за распознавание речевого ввода на почти 100 языках. Затем декодер текста преобразует это значение на различные языки для текстового содержания, за которым следует текстово-единичная модель, которая декодирует его в дискретные акустические единицы, предназначенные для 36 речевых языков. Путем предварительного обучения самообучающего кодировщика, компонентов распознавания речи в текст, перевода текста в текст и текстово-единичной модели улучшается качество модели и обеспечивается стабильность ее обучения. Полученные декодированные дискретные единицы затем преобразуются в речь с использованием многоязыкового модуля вокодера HiFi-GAN.

Meta AI использует самообучающийся речевой кодировщик, известный как w2v-BERT 2.0 – улучшенная версия w2v-BERT, отличающаяся повышенной стабильностью обучения и качеством представления. Этот кодировщик обучен распознавать структуру и смысл речевых шаблонов, извлекая понимание из огромных объемов многоязычной речи, охватывающей миллионы часов. Функционально кодировщик разделяет аудиосигнал на более мелкие сегменты, строя внутреннее представление сказанного. Учитывая, что устный язык состоит из различных звуков и символов, используется адаптер длины для сопоставления этих элементов с соответствующими словами, хотя и приблизительно.

Аналогично Meta AI использует текстовый кодировщик, основанный на модели NLLB. Данный текстовый кодировщик обучен понимать текстовое содержание на почти 100 языках, генерируя представления, которые оказываются ценными при переводе.

Текстовый декодер Meta AI способен обрабатывать закодированные речевые представления или текстовые представления. Эта возможность используется для задач в рамках одного языка, включая автоматическое распознавание речи и многоязычные переводные усилия. Например, когда диктор произносит слово “bonjour” на французском языке, автоматически генерируется соответствующий переведенный текст на свахили “habari”. Благодаря многофункциональному обучению, Meta AI использует возможности надежной модели перевода текста-текста (NLLB), чтобы направлять модель перевода речи в текст с использованием дистилляции знаний на уровне токенов.

В контексте речевого производства Meta AI использует акустические единицы для представления целевой речи. Компонент текст-единица (T2U) в модели UnitY оркестрирует создание дискретных речевых единиц на основе текстового вывода. Этот компонент проходит предварительное обучение на данных ASR перед фазой настройки модели UnitY. Затем используется многоязыковый модуль вокодера HiFi-GAN для преобразования этих дискретных единиц в аудиоформы.

Модели, основанные на данных, такие как SeamlessM4T, получают значительные преимущества от большого объема высококачественных данных end-to-end, в частности данных речи-в-текст и речи-в-речь. Однако полагаться исключительно на транскрибированные и переведенные речевые данные, созданные людьми, недостаточно для решения сложностей перевода речи на 100 языков. В ответ Meta AI развивает свои изначальные работы в области текстового майнинга, используя меру сходства в едином пространстве вложений вместе с начальными исследованиями в области речевого майнинга, чтобы создать дополнительные ресурсы для обучения модели SeamlessM4T.

Результаты

С единой моделью SeamlessM4T Meta AI достигает передовых результатов на впечатляющем спектре почти 100 языков. Этот успех дополняется его многофункциональными возможностями, охватывающими автоматическое распознавание речи, речь-в-текст, речь-в-речь, текст-в-речь и текст-в-текст перевода.

Примечательно, что система расширяет свои достижения, охватывая языки с низким и средним уровнем ресурсов, значительно повышая их производительность. Это усиление сопровождается неизменным качеством системы в доставке надежных результатов для языков с высоким уровнем ресурсов.

В стремлении к точной оценке системы, Meta AI представляет расширенную метрику BLASER 2.0, выходящую за рамки оценок на основе текста. Эта эволюционировавшая метрика позволяет оценивать как речевые, так и текстовые единицы с точностью, сравнимой с предшественником. Благодаря тщательным испытаниям на устойчивость, система демонстрирует исключительную устойчивость в задачах речи-в-текст. На фоне фонового шума и изменений в характеристиках диктора, система достигает значительных улучшений – средние улучшения составляют 37% и 48% соответственно, превосходя современные модели.

Источник изображения: Meta AI

SeamlessM4T является одной из самых захватывающих основных моделей в области речевого перевода, когда-либо созданных. Надеемся, что мы увидим ее в интеграции с мультимодальными усилиями Meta AI.