Meta AI представляет Seamless общедоступную систему искусственного интеллекта, которая обеспечивает мгновенное выражение через языковые барьеры в режиме реального времени

Мета ИИ представляет Seamless доступную всем систему искусственного интеллекта, которая обеспечивает мгновенное общение без языковых барьеров в режиме реального времени

“`html

Новые возможности и улучшения в автоматическом голосовом переводе позволили добиться гораздо большего – охватить больше языков и работать с большим количеством форматов ввода. Однако огромные возможности, которые делают машинно-посредническую коммуникацию естественной по сравнению с разговором человека с человеком, на данный момент отсутствуют в системах масштабного автоматического голосового перевода.

В новом исследовании Meta AI представлен набор моделей, способных осуществлять выразительные и мультиязычные переводы от начала до конца. Исследователи начали с представления SeamlessM4T v2 – улучшенной версии модели SeamlessM4T, которая является мультимодальной и поддерживает практически все языки. Эта усовершенствованная модель, которая использует более новую версию фреймворка UnitY2, была обучена с использованием лингвистических данных, имеющих меньше ресурсов. Благодаря расширению функционала SeamlessAlign, автоматическая синхронизация включает данные на 76 языках – 114 800 часов. Два самых последних модели, SeamlessExpressive и SeamlessStreaming, основаны на модели SeamlessM4T v2. С помощью SeamlessExpressive пользователи могут переводить, сохраняя все интонации и стили голоса.

Исследование Meta сохраняет индивидуальный стиль голоса, уделяя внимание некоторым недостаточно исследованным особенностям просодии, таким как скорость речи и паузы, которые были пренебрежены в предыдущих исследованиях выразительной речи. Что касается SeamlessStreaming, предложенная модель не ожидает завершения исходных высказываний перед производством целевых переводов с низкой задержкой; вместо этого она использует метод эффективного монотонного многофакторного внимания (EMMA). С помощью SeamlessStreaming, первой модели такого типа, можно одновременно выполнять перевод речи на множество языков.

Команда провела оценку просодии, задержки и устойчивости этих моделей, используя смесь новых и обновленных версий существующих автоматических методов измерения. Для проведения оценки человеком они модифицировали существующие протоколы, чтобы измерить самые важные качества сохранения смысла, аутентичности и выразительности. Они провели всеобъемлющую оценку предубеждения по половому признаку, первую известную попытку “красного” тестирования для мультимодального машинного перевода, первую известную систему обнаружения и смягчения добавленной токсичности, а также неразборчивый локализованный механизм водяного знака для смягчения воздействия дипфейков, чтобы гарантировать ответственное и безопасное использование их моделей.

Seamless – первая публично доступная система, обеспечивающая выразительное межъязыковое реальное время общения. Она объединяет SeamlessExpressive и SeamlessStreaming, объединяющие основные компоненты. В целом, Seamless предоставляет важный взгляд на базовые технологии, необходимые для превращения Универсального Речевого Переводчика из идеи научной фантастики в реальность.

Исследователи подчеркивают, что точность модели может отличаться в зависимости от пола, расы или акцента, хотя они тщательно протестировали свои артефакты на различных оси справедливости и включили механизмы защиты, где это было возможно. Дальнейшие исследования должны продолжать стремиться улучшить охват языков и устранить различия в производительности между языками с низкими и высокими ресурсами, чтобы реализовать Универсальный Речевой Переводчик.

“`