Сценарий Python для поиска частот слов данного документа

Я ищу простой скрипт, который может найти частоту слов для данного документа (возможно, используя переносимый стеблемер).

Есть ли библиотека или простой скрипт, который выполняет этот процесс?

    использовать nltk

     import nltk YOUR_STRING = "Your words" words = [w for w in YOUR_STRING.split()] freq_dist = nltk.FreqDist(words) tokens = freq_dist.keys() #50 most frequent most_frequent = tokens[:50] #50 least frequent least_frequent = tokens[-50:] 

    Вы должны уметь подсчитывать слова. Используйте collections.Counter dict или dict , в зависимости от того, что вам нужно. Эта часть проста, но если это не так, вы можете найти ответ, выполнив поиск самой SO.

    Я думаю, вам также нужен Porter Stemmer, у которого есть версия Python по адресу http://tartarus.org/~martin/PorterStemmer/python.txt