Начало работы с распознаванием речи и питоном

Я хотел бы знать, с чего можно начать с распознавания речи. Не с библиотекой или с чем-то, что довольно «черным ящиком». Но вместо этого я хочу знать, где я могу На самом деле сделать простой скрипт распознавания речи. Я сделал некоторые поиски и нашел, не так много, но я видел, что есть словари «звуков» или слогов, которые могут быть собраны вместе для формирования текста. Так что в основном мой вопрос: где я могу начать с этого?

Кроме того, поскольку это немного оптимистично, я бы тоже был в порядке с библиотекой (на данный момент) для использования в моей программе. Я видел, что некоторые слова в текстовых библиотеках и API выплескивают только один результат. Это нормально, но это было бы нереалистично. Моя текущая программа уже проверяет грамматику и все содержимое любого текста, так что, если бы я сказал, десятая часть получается из речи в текстовое программное обеспечение, чем она может проверять каждый и исключать любые, которые не имеют смысла ,

6 Solutions collect form web for “Начало работы с распознаванием речи и питоном”

UPDATE: это больше не работает

потому что Google закрыл свою платформу

вы можете использовать https://pypi.python.org/pypi/pygsr

$> pip install pygsr 

пример использования:

 from pygsr import Pygsr speech = Pygsr() # duration in seconds speech.record(3) # select the language phrase, complete_response = speech.speech_to_text('en_US') print phrase 

Если вы действительно хотите понять распознавание речи с нуля, найдите хороший пакет обработки сигналов для python, а затем прочитайте о распознавании речи независимо от программного обеспечения.

Но распознавание речи – чрезвычайно сложная проблема (в основном потому, что звуки взаимодействуют во всех отношениях, когда мы говорим). Даже если вы начнете с лучшей библиотеки распознавания речи, вы можете получить свои руки, вы ни в коем случае не найдете себе ничего больше.

Для тех, кто хочет углубиться в тему распознавания речи в Python, вот некоторые ссылки:

Pocketsphinx также является хорошей альтернативой. В SWIG есть привязки Python, которые упрощают интеграцию в скрипт.

Например:

 from os import environ, path from itertools import izip from pocketsphinx import * from sphinxbase import * MODELDIR = "../../../model" DATADIR = "../../../test/data" # Create a decoder with certain model config = Decoder.default_config() config.set_string('-hmm', path.join(MODELDIR, 'hmm/en_US/hub4wsj_sc_8k')) config.set_string('-lm', path.join(MODELDIR, 'lm/en_US/hub4.5000.DMP')) config.set_string('-dict', path.join(MODELDIR, 'lm/en_US/hub4.5000.dic')) decoder = Decoder(config) # Decode static file. decoder.decode_raw(open(path.join(DATADIR, 'goforward.raw'), 'rb')) # Retrieve hypothesis. hypothesis = decoder.hyp() print 'Best hypothesis: ', hypothesis.best_score, hypothesis.hypstr print 'Best hypothesis segments: ', [seg.word for seg in decoder.seg()] # Access N best decodings. print 'Best 10 hypothesis: ' for best, i in izip(decoder.nbest(), range(10)): print best.hyp().best_score, best.hyp().hypstr # Decode streaming data. decoder = Decoder(config) decoder.start_utt('goforward') stream = open(path.join(DATADIR, 'goforward.raw'), 'rb') while True: buf = stream.read(1024) if buf: decoder.process_raw(buf, False, False) else: break decoder.end_utt() print 'Stream decoding result:', decoder.hyp().hypstr 

Dragonfly обеспечивает чистую структуру для распознавания речи в Windows. Проверьте их документацию, например, использование. Поскольку вы не ищете большой набор функций Dragonfly, вы можете захотеть взглянуть на уже не поддерживаемую библиотеку PySpeech .

Их исходный код выглядит легко понятным и, возможно, это то, что вы хотите посмотреть в первую очередь

Я знаю, что вопрос старый, но для людей в будущем:

Я использую speech_recognition и мне это нравится. Единственное, что он требует Интернета, потому что он использует Google для распознавания речи. Но это не должно быть проблемой в большинстве случаев. Признание работает почти отлично.

https://pypi.python.org/pypi/SpeechRecognition/

Вот небольшой пример кода:

 import speech_recognition as sr r = sr.Recognizer() with sr.Microphone() as source: # use the default microphone as the audio source audio = r.listen(source) # listen for the first phrase and extract it into audio data try: print("You said " + r.recognize(audio)) # recognize speech using Google Speech Recognition except LookupError: # speech is unintelligible print("Could not understand audio") 

Есть только одна вещь, которая не работает хорошо для меня: Прослушивание в бесконечной петле. Через несколько минут он вешает трубку. (Это не сбой, он просто не отвечает.)

Python - лучший язык программирования в мире.