Начало извлечения информации выделение ключевых слов и получение частот

Извлечение информации ключевые слова и частоты

Быстрый подход для выделения ключевых слов в PDF-документе и подсчета их частоты.

Фото Judy Velazquez на Unsplash

Введение

С увеличением объема доступной информации каждый день важно иметь возможность быстро собирать соответствующую статистику о данной информации для построения связей и получения новой перспективы на в противном случае избыточные данные. Сегодня мы рассмотрим извлечение текста, также известное как извлечение информации, из PDF-файлов и быстрый подход к формулировке фактов и идей о разных корпусах. В статье сегодня мы углубимся в область обработки естественного языка (Natural Language Processing, NLP), которая представляет собой способность компьютера понимать человеческий язык.

Извлечение информации

Извлечение информации (IE), как определено Jurafsky et al, – это “процесс превращения неструктурированной информации, встроенной в тексты, в структурированные данные.” [1]. Очень быстрый способ извлечения информации заключается не только в поиске слова в теле текста, но и в подсчете частоты его упоминания. Это поддерживается предположением о том, что чем чаще слово упоминается в тексте, тем оно важнее и связано с темой корпуса. Важно отметить, что удаление стоп-слов важно для данного процесса. Почему? Потому что если вы просто посчитаете все частоты слов в корпусе, слово “the” будет упоминаться много раз. Делает ли это слово важным для передачи информации из текста? Нет, поэтому вы хотите убедиться, что вы смотрите на частоты слов, которые вносят вклад в семантическое значение ваших корпусов.

Извлечение информации может привести к использованию других техник обработки естественного языка. Эти техники выходят за рамки данной статьи, но я считал их интересными и важными для обсуждения.

Первая техника – распознавание именованных сущностей (Named Entity Recognition, NER). Как подробно указано Jurafsky et al., “задача распознавания именованных сущностей (NER) заключается в поиске каждого упоминания именованной сущности в тексте и маркировке ее типа.” [1] Это похоже на идею поиска…