Нужен модуль python для создания текстовых документов

Мне нужен хороший модуль python для создания текстовых документов на стадии предварительной обработки.

Я нашел этот

http://pypi.python.org/pypi/PyStemmer/1.0.1

но я не могу найти документацию в указанной ссылке.

Я знаю, где найти документацию или любой другой хороший алгоритм, пожалуйста, помогите.

Вы можете попробовать NLTK

>>> from nltk import PorterStemmer >>> PorterStemmer().stem('complications') 

Модуль Python stemming имеет реализации различных алгоритмов генерации, таких как Porter, Porter2, Paice-Husk и Lovins. http://pypi.python.org/pypi/stemming/1.0

  >> from stemming.porter2 import stem >> stem("factionally") faction 

Все эти стволовые клетки, которые обсуждались здесь, являются алгоритмическими, поэтому они всегда могут давать неожиданные результаты, такие как

 In [3]: from nltk.stem.porter import * In [4]: stemmer = PorterStemmer() In [5]: stemmer.stem('identified') Out[5]: u'identifi' In [6]: stemmer.stem('nonsensical') Out[6]: u'nonsens' 

Чтобы правильно получить корневые слова, нужен словарь-основатель, такой как Hunspell Stemmer. Вот его реализация на основе python в следующей ссылке . Пример кода здесь

 >>> import hunspell >>> hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff') >>> hobj.spell('spookie') False >>> hobj.suggest('spookie') ['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill'] >>> hobj.spell('spooky') True >>> hobj.analyze('linked') [' st:link fl:D'] >>> hobj.stem('linked') ['link'] 

PyStemmer – это интерфейс Python для библиотеки для создания Snowball.

Документацию можно найти здесь: https://github.com/snowballstem/pystemmer/blob/master/docs/quickstart.txt https://github.com/snowballstem/pystemmer/blob/master/docs/quickstart_python3.txt

Пакет gensim для моделирования темы поставляется с алгоритмом Porter Stemmer:

 >>> from gensim import parsing >>> gensim.parsing.stem_text("trying writing nonsense") 'try write nonsens' 

PorterStemmer – единственный вариант, который реализуется в gensim .

Замечание: я могу представить (без дальнейших ссылок), что большинство модулей, связанных с обработкой текста, имеют свои собственные реализации для простых процедур предварительной обработки, таких как сокращение портера, удаление белого пространства и удаление стоп-слова.