Преобразование текстов в числовую форму с помощью TfidfVectorizer пошаговое руководство

Превращение текстов в числовую форму с помощью TfidfVectorizer пошаговое руководство

Фото от Mohamed Nohassi на Unsplash

Как подсчитать ТФ-ИДФ значения вручную и с использованием sklearn

ТФ-ИДФ – это метод преобразования текста в числовую форму для моделей машинного обучения или искусственного интеллекта. Другими словами, ТФ-ИДФ – это метод извлечения признаков из текста. Этот метод более сложный, чем метод CountVectorizer (), о котором я рассказал в моей последней статье.

Метод ТФ-ИДФ дает оценку для каждого слова, которая представляет полезность или актуальность этого слова. Он измеряет использование слова по сравнению с другими словами, присутствующими в документе.

В этой статье мы будем рассчитывать ТФ-ИДФ значения вручную, чтобы вы поняли понятие ТФ-ИДФ более ясно. В конце мы также рассмотрим, как использовать векторизатор ТФ-ИДФ из библиотеки sklearn.

Оно состоит из двух частей: ТФ и ИДФ. Давайте посмотрим, как работает каждая часть.

ТФ

ТФ обозначается как «Частота термина». ТФ можно рассчитать так:

ТФ = # вхождение слова в документ

ИЛИ

ТФ = (# вхождений в документ) / (# слов в документе)

Давайте поработаем на примере. Мы найдем ТФ для каждого слова в этом документе:

Моё имя Лилия

Давайте рассмотрим пример для каждой из формул.

ТФ = # вхождение слова в документ

Если мы возьмем первую формулу здесь, которая просто представляет собой число вхождений слова в документ, ТФ для слова «МОЁ» равно 1, поскольку оно появилось только один раз.

Таким же образом, ТФ для слов

«имя» = 1, «это» = 1, «Лилия» = 1

Теперь давайте использовать вторую формулу.

ТФ = (# вхождений в документ) / (# слов в документе)

Если мы возьмем вторую формулу, первая часть формулы (# вхождений в документ) равна 1, а вторая часть (# слов в документе) равна 4.

Таким образом, ТФ для слова «МОЁ» равно 1/4 или 0.25.

Таким же образом, ТФ для слов