Использование WordNet для определения семантического сходства между двумя текстами?

Как вы можете определить семантическое сходство между двумя текстами в python с помощью WordNet?

Очевидным препроцессом было бы удаление стоп-слов и истолкование, но что тогда?

Единственный способ, которым я могу думать, – рассчитать расстояние между путями WordNet между каждым словом в двух текстах. Это стандартно для униграмм. Но это большие (400 слов) тексты, которые являются документами на естественном языке, со словами, которые не находятся в каком-либо определенном порядке или структуре (кроме тех, которые налагаются английской грамматикой). Итак, какие слова вы бы сравнили между текстами? Как вы это сделаете в python?

One Solution collect form web for “Использование WordNet для определения семантического сходства между двумя текстами?”

Одна вещь, которую вы можете сделать, это:

  1. Убить слова остановки
  2. Найдите как можно больше слов, имеющих максимальные пересечения синонимов и антонимов с другими словами в одном документе. Назовем эти "важные слова"
  3. Проверьте, совпадает ли набор важных слов каждого документа. Чем ближе они друг к другу, тем семантически подобны ваши документы.

Есть и другой способ. Вычислить деревья предложений из предложений в каждом документе. Затем сравните два леса. Я давно проделал подобную работу для курса. Вот код (имейте в виду, что это было давно, и это было для класса. Таким образом, код крайне хакерский, если не сказать больше).

Надеюсь это поможет

  • Как определить семантические иерархии / отношения при использовании NLTK?
  • Преобразование слов между глаголом / существительным / прилагательными
  • Как использовать испанский Wordnet в NLTK?
  • Получить синонимы из synset возвращает ошибку - Python
  • Чтобы найти синонимы, определения и примеры предложений с помощью WordNet
  • NLTK Wordnet Synset для словарной фразы
  • Как проверить, является ли слово английским словом с Python?
  • Поиск подходящих существительных с использованием NLTK WordNet
  • сравнение синонимов NLTK
  • Как получить синтаксис WordNet с учетом идентификатора смещения?
  • Установка данных nltk в скрипт setup.py
  • Python - лучший язык программирования в мире.