Amazon Transcribe объявляет о новой модели основанной на распознавании речи системе ASR, которая расширяет поддержку более чем в 100 языках

Amazon Transcribe представляет новую модель, основанную на системе ASR распознавания речи, которая поддерживает более 100 языков

Amazon Transcribe – это полностью управляемый сервис автоматического распознавания речи (ASR), который облегчает добавление возможностей преобразования речи в текст к вашим приложениям. Сегодня мы радостно объявляем о системе следующего поколения, основанной на много-миллиардных параметрах базовой модели распознавания речи, которая позволяет автоматическое распознавание речи на более чем 100 языках. В этой статье мы обсудим некоторые преимущества этой системы, как ее используют компании, и как начать работу. Мы также предоставляем пример вывода транскрипции ниже.

Базовая модель распознавания речи Transcribe обучена с использованием передовых алгоритмов машинного обучения с самонаблюдаемыми данными, чтобы выявлять врожденные универсальные закономерности речи человека на разных языках и с акцентами. Она обучена на миллионах часов неотмеченных аудиоданных с более чем 100 языков. Настройка алгоритма обучения осуществляется через умную выборку данных для обеспечения баланса тренировочных данных между различными языками, что позволяет достигать высоких уровней точности даже для традиционно малоиспользуемых языков.

Carbyne – это компания, разрабатывающая облачные миссионерские решения для служб экстренной помощи. Миссией Carbyne является помощь сотрудникам экстренных служб в спасении жизней, и язык не должен стать преградой на их пути. Вот как они используют Amazon Transcribe для реализации своей миссии:

“AI-платформа Carbyne Live Audio Translation направлена непосредственно на помощь в улучшении экстренного реагирования для 68 миллионов американцев, которые говорят на языке, отличном от английского, а также для до 79 миллионов иностранных посетителей страны ежегодно. За счет использования новой многоязыковой базовой модели AWS Transcribe, Carbyne будет оснащена лучшими возможностями для демократизации жизненно важных экстренных услуг, потому что каждый человек важен.”

– Алекс Дизенгоф, соучредитель и технический директор Carbyne.

Благодаря базовой модели распознавания речи Amazon Transcribe достигается значительное улучшение точности в диапазоне от 20% до 50% для большинства языков. В области телефонной связи, которая является сложной и имеет недостаток данных, улучшение точности составляет от 30% до 70%. Кроме значительного повышения точности, эта большая модель распознавания речи также обеспечивает улучшение читаемости с более точным добавлением знаков препинания и заглавными буквами. С появлением генеративного ИИ, тысячи предприятий используют Amazon Transcribe для извлечения полезной информации из аудиоконтента. Благодаря значительно улучшенной точности и поддержке более 100 языков, Amazon Transcribe положительно повлияет на все подобные сценарии использования. Все существующие и новые клиенты, использующие Amazon Transcribe в режиме пакетной обработки, теперь могут использовать распознавание речи на основе базовой модели без необходимости внесения изменений в конечную точку API или параметры ввода.

Новая система распознавания речи предлагает несколько ключевых функций для всех 100+ языков в области удобства использования, настройки, безопасности пользователя и конфиденциальности. Среди них функции автоматического добавления знаков препинания, настраиваемый словарь, автоматическое определение языка, диаризация озвучивающего, оценки уверенности на уровне слова и фильтр настраиваемого словаря. Расширенная поддержка системы для различных акцентов, шумовых сред и акустических условий позволяет достигать более точных результатов и эффективно интегрировать голосовые технологии в ваши приложения.

Благодаря высокой точности Amazon Transcribe на разных акцентах и условиях шума, поддержке большого числа языков и широкому набору дополнительных функций, тысячи предприятий получат возможность извлекать полезные знания из своего аудиоконтента, а также улучшить доступность и обнаружение своего аудио- и видеоконтента в различных областях. Например, контакт-центры производят транскрипцию и анализ звонков клиентов для выявления важных выводов и последующего улучшения опыта клиентов и продуктивности агентов. Производители контента и дистрибьюторы медиа автоматически генерируют субтитры с помощью Amazon Transcribe для повышения доступности контента.

Начните работу с Amazon Transcribe

Вы можете использовать AWS Command Line Interface (AWS CLI), AWS Management Console и различные SDK AWS для пакетной транскрипции и продолжать использовать тот же API StartTranscriptionJob, чтобы получить преимущества производительности от улучшенной модели ASR без необходимости вносить изменения в ваш код или параметры. Для получения дополнительной информации о использовании AWS CLI и консоли обратитесь к руководствам Транскрипция с помощью AWS CLI и Транскрипция с помощью AWS Management Console соответственно.

Первый шаг – загрузить ваши медиафайлы в Amazon Simple Storage Service (Amazon S3), службу объектного хранения, созданную для хранения и извлечения любого объема данных из любого места. Amazon S3 предлагает ведущую в отрасли надежность, доступность, производительность, безопасность и практически неограниченную масштабируемость по очень низкой стоимости. Вы можете выбрать сохранение вашей транскрипции в своем собственном бакете S3 или позволить Amazon Transcribe использовать безопасный бакет по умолчанию. Чтобы узнать больше о использовании бакетов S3, см. Создание, настройка и работа с бакетами Amazon S3.

Результат транскрибации

Amazon Transcribe использует формат JSON для своего вывода. Он предоставляет результат транскрипции в двух различных форматах: текстовом и элементарном формате. Ничего не меняется в отношении конечной точки API или входных параметров.

Текстовый формат предоставляет транскрипцию в виде блока текста, в то время как элементарный формат предоставляет транскрипцию в виде упорядоченных по времени транскрибированных элементов с дополнительной метаданными для каждого элемента. Оба формата присутствуют параллельно в выходном файле.

В зависимости от выбранных функций при создании задания на транскрибацию, Amazon Transcribe создает дополнительные и расширенные варианты результата транскрипции. См. следующий пример кода:

{   "jobName": "2x-speakers_2x-channels",    "accountId": "************",    "results": {        "transcripts": [{                "transcript": "Привет, добро пожаловать."            }        ],        "speaker_labels": [            {                "channel_label": "ch_0",                "speakers": 2,                "segments": [                ]            },            {                "channel_label": "ch_1",                "speakers": 2,                "segments": [                ]            }        ],        "channel_labels": {            "channels": [            ],            "number_of_channels": 2        },        "items": [                    ],        "segments": [        ]    },    "status": "ЗАВЕРШЕН"}>

Доступны следующие варианты просмотра:

  • Транскрипции – представлены элементом transcripts, содержит только текстовый формат транскрипции. В случае с несколькими дикторами и каналами, конкатенация всех транскрипций предоставляется в виде одного блока.
  • Дикторы – представлены элементом speaker_labels, содержит текстовый и элементарных форматы трансрипции, сгруппированные по дикторам. Доступно только при включенной функции нескольких дикторов.
  • Каналы – представлены элементом channel_labels, содержит текстовый и элементарных форматы транскрипции, сгруппированные по каналам. Доступно только при включенной функции нескольких каналов.
  • Элементы – представлены элементом items, содержит только элементарный формат транскрипции. В случае с несколькими дикторами и каналами, элементы дополняются дополнительными свойствами, указывающими диктора и канал.
  • Сегменты – представлены элементом segments, содержит текстовый и элементарных форматы транскрипции, сгруппированные по альтернативной транскрипции. Доступно только при включенной функции альтернативных результатов.

Вывод

В AWS мы постоянно работаем над инновациями в интересах наших клиентов. Расширив поддержку языков в Amazon Transcribe на более чем 100 языков, мы позволяем нашим клиентам обслуживать пользователей с различными языковыми предпочтениями. Это не только повышает доступность, но также открывает новые возможности для общения и обмена информацией в глобальном масштабе. Чтобы узнать больше о функциях, рассмотренных в этом посте, ознакомьтесь с страницей функций и новым постом.