Tag: nltk

Установка данных nltk в скрипт setup.py

Я использую NLTK с wordnet в моем проекте. Я сделал установку вручную на своем ПК, с pip: pip3 install nltk –user в терминале, затем nltk.download() в оболочке python для загрузки wordnet. Я хочу сделать это с помощью файла setup.py, но я не знаю, как установить wordnet. На данный момент у меня есть этот кусок кода […]

«ImportError: невозможно импортировать имя StanfordNERTagger» в NLTK

Я не могу импортировать NER Stanford Tagger в NLTK. Это то, что я сделал: Загрузили код Java здесь и добавили переменную среды STANFORD_MODELS с указанием пути к папке, в которой хранится Java-код. Этого должно быть достаточно в соответствии с информацией, которая предоставляется на сайте NLTK. В нем говорится: «Модели Tagger необходимо загрузить с http://nlp.stanford.edu/software и […]

NLTK не смог найти stanford-postagger.jar! Установите переменную среды CLASSPATH

Я работаю над проектом, который требует, чтобы я пометил токены, используя nltk и python. Поэтому я хотел использовать это. Но придумал несколько проблем. Я просмотрел много других заданных вопросов и других форумов, но я все еще не мог понять суть проблемы. Проблема заключается в том, что я пытаюсь выполнить следующее: from nltk.tag import StanfordPOSTagger st […]

Как определить и удалить деревья трассировки из nltk.trees?

Например, я получил это маленькое дерево (это, очевидно, только поддерево): (VP (VBZ says) (SBAR (-NONE- *0*) (S-3 (-NONE- *T*)))) Следы деревьев – это те деревья, которые приводят к листу формы: *. *. Теперь я хочу удалить все поддеревья, которые являются деревом трассировки. Итак, для этого примера результат должен выглядеть следующим образом: (VP (VBZ says)) До […]

Хранение условного распределения частот с использованием NLTK

Я пишу сценарий для прогнозирования текста, используя Условное распределение частот NLTK. Я хочу сохранить дистрибутив в базе данных SQL для последующего использования с помощью JSON. Возможно ли это? Если да, как сбрасывать формат ConditionalFrequencyDistribution с помощью JSON? Или, может быть, есть еще один отличный способ его хранения? cfd = ConditionalFreqDist() prev_words = None cnt=0 for […]

Python NLTK Наивный байесовский классификатор: каково основное вычисление, которое этот классификатор использует для ввода classifiy?

Я использую классификатор Naive Bayes в Python NLTK для вычисления распределения вероятности для следующего примера: import nltk def main(): train = [(dict(feature=1), 'class_x'), (dict(feature=0), 'class_x'), (dict(feature=0), 'class_y'), (dict(feature=0), 'class_y')] test = [dict(feature=1)] classifier = nltk.classify.NaiveBayesClassifier.train(train) print("classes available: ", sorted(classifier.labels())) print ("input assigned to: ", classifier.classify_many(test)) for pdist in classifier.prob_classify_many(test): print ("probability distribution: ") print ('%.4f […]

NLTK Наиболее распространенный синоним (Wordnet) для каждого слова

Есть ли способ найти наиболее распространенный синоним слова с NLTK? Я хотел бы упростить предложение, используя самые распространенные синонимы каждого слова на нем. Если слово, используемое в предложении, уже является самым распространенным словом из его синонимов, его не следует изменять. Скажем, «Привет» чаще, чем «Привет»; «Дорогой» более распространен, чем «Ценой»; и «Друг» уже является самым […]

Обработка текста на Python: NLTK и панды

Я ищу эффективный способ построить матрицу Term Document в Python, которая может использоваться вместе с дополнительными данными. У меня есть текстовые данные с несколькими другими атрибутами. Я хотел бы провести некоторые анализы по тексту, и я хотел бы иметь возможность сопоставлять функции, извлеченные из текста (например, отдельные токены или темы LDA) с другими атрибутами. Мой […]

Невозможно создать теггер POS для Stanford, работающий в nltk

Я пытаюсь работать со Стэнфордским тегом POS в NLTK. Я использую пример, показанный здесь: http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford Я могу загружать все гладко: >>> import os >>> from nltk.tag import StanfordPOSTagger >>> os.environ['STANFORD_MODELS'] = '/path/to/stanford/folder/models') >>> st = StanfordPOSTagger('english-bidirectional-distsim.tagger',path_to_jar='/path/to/stanford/folder/stanford-postagger.jar') но при первом выполнении: >>> st.tag('What is the airspeed of an unladen swallow ?'.split()) это дает мне следующую ошибку: […]

Отношения отношения NLTK ничего не возвращает

Недавно я работал над использованием nltk для извлечения отношения из текста. поэтому я создаю образец текста: «Том – соучредитель Microsoft». и используя следующую программу для тестирования и возврата ничего. Я не могу понять, почему. Я использую версию NLTK: 3.2.1, версия python: 3.5.2. Вот мой код: import re import nltk from nltk.sem.relextract import extract_rels, rtuple from […]

Interesting Posts

Первый индекс списка Python больше, чем x?

Я хочу начать читать исходный код Python. Где я должен начать

Используя MongoDB в качестве нашей основной базы данных, следует ли использовать отдельную базу данных графа для реализации отношений между объектами?

Запрос на фляжку и тип приложения / json

Структура папок Python gzip при застегивании одного файла

Оператор набора «in» Python

Как создать цикл for с динамическим диапазоном?

Как найти значения в массиве, которые удовлетворяют двум условиям, используя Python

Как получить фильтр для работы с лямбдой с несколькими аргументами?

Атрибуты модуля Python `this`

Найти и заменить значения в XML с помощью Python

Разница между использованием запятых, конкатенацией и форматированием строк в Python

Класс со слишком большим количеством параметров: лучшая стратегия дизайна?

Как отсортировать список внутри dict в Python?

f.read, приходящий пустой

Python - лучший язык программирования в мире.