Distil-Whisper Прогресс в технологии голосового распознавания на основе искусственного интеллекта

Прогресс Distil-Whisper в сфере голосового распознавания искусственный интеллект на службе модернизации

Distil-Whisper: новый подход к эффективной текстовой трансляции аудио с помощью искусственного интеллекта

Получайте мои блоги и многое другое в моем AI-бюллетене и получите бесплатные подарки, такие как мои секреты успеха на YouTube!

Смотрите видео:

Как вы знаете, мы уже очень хорошо и эффективно обмениваемся сообщениями с искусственным интеллектом в письменном формате, в основном благодаря ChatGPT, а также другим альтернативам с открытым исходным кодом. Следующим шагом является свободное общение с ними, используя наш голос. Если вы еще не пробовали, у OpenAI есть довольно неплохой инструмент под названием Whisper, с помощью которого каждый может заплатить и использовать для транскрибации голоса или аудио в текст, который затем можно использовать любой моделью или задачей. Он очень мощный, но определенно не простой в интеграции в реальное время выполнения задачи из-за своей вычислительной сложности и времени, необходимого для обработки аудио.

Вы знаете, как неприятно ждать, пока ваше сообщение будет понято. Например, с помощью ассистентов, таких как Siri или Google Assistant. Адаптированные инструменты для транскрибации речи искусственного интеллекта должны быть гораздо более эффективными, чтобы голос в приложении на основе ИИ стал частью безпроблемного опыта, а не просто забавной штукой, которую вы пробуете, но не используете в своей повседневной работе. К счастью, удивительные исследователи работают над этой проблемой транскрибации аудио и недавно поделились результатами работы Distil-Whisper. Модель, которая в 6 раз быстрее, чем оригинальная модель Whisper, занимает 49% меньше места и сохраняет точность на уровне 99%. И самое лучшее в этом заключается в том, что модель полностью открытая и вы можете использовать ее прямо сейчас.

Посмотрите видео, чтобы увидеть примеры результатов на практике!

Distil-Whisper является улучшением над Whisper как по размеру, так и по скорости. Она не работает лучше, но соответствует результатам, что уже является чрезвычайно хорошим, если вы знакомы с Whisper: впечатляет, способностью лучше понимать человеческую речь, чем я с большинством акцентов.

И да, вы все правильно слышали. Они сделали ее почти в шесть раз быстрее, в 5,8 раза, чтобы быть точнее…