Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?

Я рассматривал методы разделения документов на абзацы, и я натолкнулся на texttiling как один из возможных способов сделать это.

Вот моя попытка использовать его. Однако я не понимаю, как работать с выходом. Буду признателен за вашу помощь.

t = unidecode(doclist[0].decode('utf-8','ignore')) nltk.tokenize.texttiling.TextTilingTokenizer(t) 

вывод:

 <nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350> 

One Solution collect form web for “Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?”

Я уже возился с этим сам по той же причине, что и вы, и у вас был тот же самый вопрос, который вы сделали, поэтому не слишком расстраивайтесь, если это неправильно. Я решил лучше всего передать то, что мало знаю … 🙂

Я еще не уверен, но я нашел в этом отчете об ошибке пример использования TextTilingTokenizer:

 alice=nltk.corpus.gutenberg.raw('carroll-alice.txt') ttt = nltk.tokenize.TextTilingTokenizer() tiles = ttt.tokenize(alice[140309 : ]) 

Похоже, что вы хотите передать свой текст методу tokenize в TextTilingTokenizer.

Python - лучший язык программирования в мире.