Tag: stanford

Установка интерфейса Python в Stanford Parser: ошибка: команда «gcc» не удалась с статусом выхода 1 rake aborted

Я хотел бы установить интерфейс python для парсера stanford. http://projects.csail.mit.edu/spatial/Stanford_Parser Когда вы запускаете установку rake для установки jpype, я сохраняю ge In file included from src/native/common/jp_reference.cpp:1:0: src/native/common/include/jpype.h:45:17: schwerwiegender Fehler: jni.h: Datei oder Verzeichnis nicht gefunden Kompilierung beendet. error: command 'gcc' failed with exit status 1 rake aborted! Сообщение об ошибке на английском-немецком языке. В нем […]

Стэнфордский NER с python NLTK терпит неудачу со строками, содержащими несколько «!!» s?

Предположим, что это мое filecontent : Когда им больше 45 лет! Это определенно поможет Майклу Джордану. Ниже приведен мой код для настроек тегов. st = NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', 'stanford-ner/stanford-ner.jar') tokenized_sents = [word_tokenize(sent) for sent in sent_tokenize(filecontent)] taggedsents = st.tag_sents(tokenized_sents) Я ожидал бы, что и tokenized_sents и taggedsents содержат одинаковое количество предложений. Но вот что они содержат: for […]

nltk: Как предотвратить возникновение собственных существительных

Я пытаюсь написать программу для извлечения ключевого слова, используя тестеры PST в Стэнфорде и NER. Для извлечения ключевых слов меня интересуют только собственные существительные. Вот основной подход Очистите данные, удалив все, кроме алфавитов Удалить стоп-слова Стебель каждое слово Определить тег POS для каждого слова Если тег POS является существительным, тогда подайте его в NER Затем […]

NLTK: почему nltk не распознает переменную CLASSPATH для stanford-ner?

Это мой код from nltk.tag import StanfordNERTagger st = StanfordNERTagger('english.all.3class.distsim.crf.ser.gz') И я получаю NLTK was unable to find stanford-ner.jar! Set the CLASSPATH environment variable. Это то, что выглядит мой .bashrc в ubuntu export CLASSPATH=/home/wolfgang/Downloads/stanford-ner-2015-04-20/stanford-ner-3.5.2.jar export STANFORD_MODELS=/home/wolfgang/Downloads/stanford-ner-2015-04-20/classifiers Кроме того, я попытался напечатать переменную окружения в python таким образом import os os.environ.get('CLASSPATH') И я получаю '/home/wolfgang/Downloads/stanford-ner-2015-04-20/stanford-ner-3.5.2.jar' Поэтому […]

NLTK не смог найти stanford-postagger.jar! Установите переменную среды CLASSPATH

Я работаю над проектом, который требует, чтобы я пометил токены, используя nltk и python. Поэтому я хотел использовать это. Но придумал несколько проблем. Я просмотрел много других заданных вопросов и других форумов, но я все еще не мог понять суть проблемы. Проблема заключается в том, что я пытаюсь выполнить следующее: from nltk.tag import StanfordPOSTagger st […]

Невозможно создать теггер POS для Stanford, работающий в nltk

Я пытаюсь работать со Стэнфордским тегом POS в NLTK. Я использую пример, показанный здесь: http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford Я могу загружать все гладко: >>> import os >>> from nltk.tag import StanfordPOSTagger >>> os.environ['STANFORD_MODELS'] = '/path/to/stanford/folder/models') >>> st = StanfordPOSTagger('english-bidirectional-distsim.tagger',path_to_jar='/path/to/stanford/folder/stanford-postagger.jar') но при первом выполнении: >>> st.tag('What is the airspeed of an unladen swallow ?'.split()) это дает мне следующую ошибку: […]

Как сохранить результат ner в json / database

import nltk from itertools import groupby def get_continuous_chunks(tagged_sent): continuous_chunk = [] current_chunk = [] for token, tag in tagged_sent: if tag != "O": current_chunk.append((token, tag)) else: if current_chunk: # if the current chunk is not empty continuous_chunk.append(current_chunk) current_chunk = [] # Flush the final current_chunk into the continuous_chunk, if any. if current_chunk: continuous_chunk.append(current_chunk) return continuous_chunk […]

nltk StanfordNERTagger: Как получить правильные существительные без капитализации

Я пытаюсь использовать StanfordNERTagger и nltk для извлечения ключевых слов из фрагмента текста. docText="John Donk works for POI. Brian Jones wants to meet with Xyz Corp. for measuring POI's Short Term performance Metrics." words = re.split("\W+",docText) stops = set(stopwords.words("english")) #remove stop words from the list words = [w for w in words if w not […]

Ошибка Nltk stanford pos tagger: команда Java не выполнена

Я пытаюсь использовать nltk.tag.stanford module для пометки предложения (сначала как пример вики), но я продолжаю получать следующую ошибку: Traceback (most recent call last): File "test.py", line 28, in <module> print st.tag(word_tokenize('What is the airspeed of an unladen swallow ?')) File "/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py", line 59, in tag return self.tag_sents([tokens])[0] File "/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py", line 81, in tag_sents stdout=PIPE, stderr=PIPE) […]

Вычисление имен Norton Recognizer (NER) в Stanford Nancy из формата NLTK

Я использую NER в NLTK для поиска лиц, мест и организаций в предложениях. Я могу привести результаты следующим образом: [(u'Remaking', u'O'), (u'The', u'O'), (u'Republican', u'ORGANIZATION'), (u'Party', u'ORGANIZATION')] Можно ли объединить все вместе, используя это? Я хочу так: u'Remaking'/ u'O', u'The'/u'O', (u'Republican', u'Party')/u'ORGANIZATION' Благодаря!

Python - лучший язык программирования в мире.