Частотный анализ слов в частотной частоте письма Python

Следующие примеры в других сообщениях Stackoverflow, связанных с анализом частоты слов в Python, моя программа возвращает частотный анализ букв, а не слово.

Я сейчас читаю в своем corpa из текстового файла, как показано ниже в моем коде.

from collections import Counter def word_frequency_counter(): contents = "" with open("file.txt") as f: contents += str(f.readlines()) commonWords = Counter(contents)#= Counter(str(contents.lower())).most_common() print "The top three words are: ", str(commonWords.most_common(3)) 

Вывод:

 The top three words are: [(' ', 1126), ("'", 538), ('n', 528)] 

Мой желаемый результат был бы фактическими словами, а также имел набор игнорируемых слов, таких как символы пробела и цитаты.

3 Solutions collect form web for “Частотный анализ слов в частотной частоте письма Python”

 Counter(contents.split()) 

следует использовать слова вместо этого …

content – строка, а строки в Python – итерабельны (т.е. строки ведут себя как списки букв в этом контексте), поэтому ваш счетчик подсчитывает буквы.

Вам нужно передать счетчику список слов, а не строку букв.

Ответ Джорана показывает, как это сделать, используя split() .

Вы можете использовать регулярное выражение, чтобы найти все слово (символ против персонажа, который вы сейчас получаете):

 import re ... commonWords = Counter(m.group(1) for m in re.finditer(r'\b(\w+)\b', contents)) 

Вы можете использовать contents.split() для разделения текста на пробелы, но это не будет отделять слова от пунктуации. У вас также будет отдельный счет для word и word, и word. и т. д., которые будут использовать регулярное выражение.

  • Как быстро разобрать список строк
  • Итерация через ответ API геокодирования в python
  • Как я могу открыть веб-сайт в своем веб-браузере с помощью Python?
  • Как написать код Python, который может потребовать минимальную версию python?
  • Сравнение массивных списков словарей в python
  • Динамические аргументы ключевого слова в Python?
  • Перевод символов с использованием Python (например, команда tr)
  • Python Ожидаемая ошибка с отступом
  •  
    Interesting Posts for Van-Lav

    Django – Войти и перенаправить на страницу профиля пользователя

    Красивый суп просто извлекает заголовок стола

    Как установить Pyside для Python 2.7?

    Как разобрать и написать XML с использованием ElementTree Python без перемещения пространств имен?

    Программа, которая открывает текстовый файл, подсчитывает количество слов и сообщает верхние N слов, упорядоченных по количеству раз, когда они появляются в файле?

    Выбор строк из NumPy ndarray

    Как я могу получить список символов в выражении sympy?

    Python Spyder выбирает, где и когда показывать графики

    Как проверить, является ли этот пользователь анонимным или фактически пользователем в моей системе?

    строка в datetime с дробными секундами, в Google App Engine

    Как запускать команды команд из CMD

    Python dbfpy и FoxPro

    «Pythonic» метод для синтаксического анализа целых целых чисел, разделенных запятыми, в список целых чисел?

    pyopengl: Может ли он заменить c ++?

    Что эквивалентно карте <int, vector <int>> в Python?

    Python - лучший язык программирования в мире.