Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?

Я рассматривал методы разделения документов на абзацы, и я натолкнулся на texttiling как один из возможных способов сделать это.

Вот моя попытка использовать его. Однако я не понимаю, как работать с выходом. Буду признателен за вашу помощь.

t = unidecode(doclist[0].decode('utf-8','ignore')) nltk.tokenize.texttiling.TextTilingTokenizer(t) 

вывод:

 <nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350> 

One Solution collect form web for “Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?”

Я уже возился с этим сам по той же причине, что и вы, и у вас был тот же самый вопрос, который вы сделали, поэтому не слишком расстраивайтесь, если это неправильно. Я решил лучше всего передать то, что мало знаю … 🙂

Я еще не уверен, но я нашел в этом отчете об ошибке пример использования TextTilingTokenizer:

 alice=nltk.corpus.gutenberg.raw('carroll-alice.txt') ttt = nltk.tokenize.TextTilingTokenizer() tiles = ttt.tokenize(alice[140309 : ]) 

Похоже, что вы хотите передать свой текст методу tokenize в TextTilingTokenizer.

  • «ImportError: невозможно импортировать имя StanfordNERTagger» в NLTK
  • подсчет n-граммовой частоты в python nltk
  • NLTK Wordnet Synset для словарной фразы
  • Не получать требуемый результат с использованием метода определения Wordnet Synset
  • Шаг за шагом, чтобы заставить солодовый парсер в NLTK работать?
  • Класс солода Parser бросает класс не найден исключение
  • Каковы все возможные позиционные метки NLTK?
  • lemmatize множественные существительные, используя nltk и wordnet
  • Python - лучший язык программирования в мире.