python nltk.sent_tokenize ошибка ascii codec не может декодировать

Я мог бы успешно читать текст в переменной, но при попытке подделать тексты, получая эту странную ошибку:

sentences=nltk.sent_tokenize(sample) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128) 

Я знаю, что причиной ошибки является некоторая специальная строка / char, которую токенизатор не умеет читать / декодировать, а затем как обходить это? благодаря

2 Solutions collect form web for “python nltk.sent_tokenize ошибка ascii codec не может декодировать”

Вы должны попробовать следующее:

 sentences=nltk.sent_tokenize(sample.decode('utf-8')) 

Вкратце, функция pos_tag NLTK3 не работает.

Однако функция NLTK2 работает нормально.

удалить nltk

pip install http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

С другой стороны, теггер довольно плохой (по-видимому, «консерватория» – это глагол). Я хочу, чтобы Спа-центр работал в Windows.

  • Как подсчитать слова в документе корпуса
  • эффективная матрица срочных документов с NLTK
  • Автокоррекция проверки орфографии
  • Ошибка импорта NLTK Python
  • как проверить, какая версия nltk, scikit learn установлена?
  • Все синонимы для слова в python?
  • Как создать собственный текстовый файл NLTK из текстового файла?
  • twitter / facebook комментарии классификация по различным категориям
  • Python - лучший язык программирования в мире.