Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?

Я рассматривал методы разделения документов на абзацы, и я натолкнулся на texttiling как один из возможных способов сделать это.

Вот моя попытка использовать его. Однако я не понимаю, как работать с выходом. Буду признателен за вашу помощь.

t = unidecode(doclist[0].decode('utf-8','ignore')) nltk.tokenize.texttiling.TextTilingTokenizer(t) 

вывод:

 <nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350> 

One Solution collect form web for “Разделить текст на абзацы NLTK – использование nltk.tokenize.texttiling?”

Я уже возился с этим сам по той же причине, что и вы, и у вас был тот же самый вопрос, который вы сделали, поэтому не слишком расстраивайтесь, если это неправильно. Я решил лучше всего передать то, что мало знаю … 🙂

Я еще не уверен, но я нашел в этом отчете об ошибке пример использования TextTilingTokenizer:

 alice=nltk.corpus.gutenberg.raw('carroll-alice.txt') ttt = nltk.tokenize.TextTilingTokenizer() tiles = ttt.tokenize(alice[140309 : ]) 

Похоже, что вы хотите передать свой текст методу tokenize в TextTilingTokenizer.

  • Как подсчитать количество предложений, слов и символов в файле?
  • Как получить инфинитивную форму глагола с помощью NLTK (пометка)
  • Процедура nltk дает << raise URLError ('неизвестный тип url:% s'% type) >> в python
  • Ресурс corpora / wordnet не найден (приложение quepy dbpedia example)
  • Маркировка POS - NLTK считает существительное прилагательным
  • Извлечение определенного значения листа из структуры дерева nltk с помощью Python
  • Реализации TF-IDF в python
  • Как пометить текстовые файлы hunpos в nltk?
  • NLTK Наиболее распространенный синоним (Wordnet) для каждого слова
  • Сравнение первых столбцов в двух файлах csv с использованием совпадений python и печати
  • Как перебирать все узлы дерева?
  •  
    Interesting Posts for Van-Lav

    Получение ссылок youtube из встроенного видео на YouTube?

    Создание меток-точек из Spark DataFrame в Python

    Могу ли я использовать CountVectorizer в scikit-learn, чтобы подсчитать частоту документов, которые не использовались для извлечения токенов?

    группировка строк в списке в pandas groupby

    Django Query, которые получают самые последние объекты из разных категорий

    Форматирование строк со словарным ключом, который является строкой () числа

    Matplotlib не отображает цифры

    Насколько безопасно импортировать модуль несколько раз?

    Как создать две оси y, потоковые

    PyQt, нажмите действие на Qwidget

    Эффективный метод для прокрутки страниц с использованием Selenium

    В Matplotlib есть ли способ узнать список доступных форматов вывода

    Возврат каретки не работает в IDLE?

    Выключение и повторная привязка сокета – Как избежать долгого ожидания?

    Как проверить, является ли объект экземпляром пользовательского класса нового стиля?

    Python - лучший язык программирования в мире.