Частотный анализ слов в частотной частоте письма Python

Следующие примеры в других сообщениях Stackoverflow, связанных с анализом частоты слов в Python, моя программа возвращает частотный анализ букв, а не слово.

Я сейчас читаю в своем corpa из текстового файла, как показано ниже в моем коде.

from collections import Counter def word_frequency_counter(): contents = "" with open("file.txt") as f: contents += str(f.readlines()) commonWords = Counter(contents)#= Counter(str(contents.lower())).most_common() print "The top three words are: ", str(commonWords.most_common(3)) 

Вывод:

 The top three words are: [(' ', 1126), ("'", 538), ('n', 528)] 

Мой желаемый результат был бы фактическими словами, а также имел набор игнорируемых слов, таких как символы пробела и цитаты.

3 Solutions collect form web for “Частотный анализ слов в частотной частоте письма Python”

 Counter(contents.split()) 

следует использовать слова вместо этого …

content – строка, а строки в Python – итерабельны (т.е. строки ведут себя как списки букв в этом контексте), поэтому ваш счетчик подсчитывает буквы.

Вам нужно передать счетчику список слов, а не строку букв.

Ответ Джорана показывает, как это сделать, используя split() .

Вы можете использовать регулярное выражение, чтобы найти все слово (символ против персонажа, который вы сейчас получаете):

 import re ... commonWords = Counter(m.group(1) for m in re.finditer(r'\b(\w+)\b', contents)) 

Вы можете использовать contents.split() для разделения текста на пробелы, но это не будет отделять слова от пунктуации. У вас также будет отдельный счет для word и word, и word. и т. д., которые будут использовать регулярное выражение.

  • В Python, почему функция может изменять некоторые аргументы, воспринимаемые вызывающим, но не другие?
  • Чтение двоичного файла в struct в Python
  • Как применяются правила лечения с помощью лучевой терапии?
  • объект python () не принимает никаких параметров
  • Как работает сортировка вставки Python?
  • Подпроцесс Python Ctrl + C
  • Сортировка строк в строке, данные группы
  • Как создать экземпляр модели экземпляра экземпляра приложения для создания нового экземпляра?
  • AttributeError: объект 'str' не имеет атрибута 'append'
  • Как удалить проект PyCharm?
  • Установка GOOGLE_APPLICATION_CREDENALAL для командной строки BigQuery Python
  •  
    Interesting Posts for Van-Lav

    создать экземпляр класса python из класса, доступного в виде строки, только в памяти!

    Это лучший способ получить уникальную версию имени файла w / Python?

    Как я могу тестировать метод, который устанавливает внутренние данные, но не возвращается?

    отладка stl-контейнеров с использованием mingw, проблема с скриптом python

    Нужно ли мне несколько объектов курсора циклически перебирать набор записей и обновлять их одновременно?

    Размер памяти переменной в Python

    Почему мой код Fortran завершен f2py, используя так много памяти?

    Получить имена столбцов Excel-стиля из номера столбца

    Восприятие списка Python переименовывает имена даже после понимания. Это правильно?

    Как я могу развернуть скрипт Perl / Python / Ruby без установки интерпретатора?

    Преобразуйте и введите список в массив numpy

    Смешение неявных и явных ожиданий

    флажок-кеш memoize параметры строки запроса URL-адреса также

    Python matplotlib: изменить метки осей / легенда от жирного до обычного веса

    Предотвращение сбоя ядра Python при запуске приложения в QT

    Python - лучший язык программирования в мире.