Преобразование текстов в числовую форму с помощью TfidfVectorizer пошаговое руководство
Превращение текстов в числовую форму с помощью TfidfVectorizer пошаговое руководство
Как подсчитать ТФ-ИДФ значения вручную и с использованием sklearn
ТФ-ИДФ – это метод преобразования текста в числовую форму для моделей машинного обучения или искусственного интеллекта. Другими словами, ТФ-ИДФ – это метод извлечения признаков из текста. Этот метод более сложный, чем метод CountVectorizer (), о котором я рассказал в моей последней статье.
Метод ТФ-ИДФ дает оценку для каждого слова, которая представляет полезность или актуальность этого слова. Он измеряет использование слова по сравнению с другими словами, присутствующими в документе.
В этой статье мы будем рассчитывать ТФ-ИДФ значения вручную, чтобы вы поняли понятие ТФ-ИДФ более ясно. В конце мы также рассмотрим, как использовать векторизатор ТФ-ИДФ из библиотеки sklearn.
Оно состоит из двух частей: ТФ и ИДФ. Давайте посмотрим, как работает каждая часть.
- Этические границы генеративного искусственного интеллекта введение и важность
- «Как избежать пяти распространенных ошибок в Google BigQuery / SQL»
- Интерактивно изучайте набор данных Huggingface с помощью одной строки кода
ТФ
ТФ обозначается как «Частота термина». ТФ можно рассчитать так:
ТФ = # вхождение слова в документ
ИЛИ
ТФ = (# вхождений в документ) / (# слов в документе)
Давайте поработаем на примере. Мы найдем ТФ для каждого слова в этом документе:
Моё имя Лилия
Давайте рассмотрим пример для каждой из формул.
ТФ = # вхождение слова в документ
Если мы возьмем первую формулу здесь, которая просто представляет собой число вхождений слова в документ, ТФ для слова «МОЁ» равно 1, поскольку оно появилось только один раз.
Таким же образом, ТФ для слов
«имя» = 1, «это» = 1, «Лилия» = 1
Теперь давайте использовать вторую формулу.
ТФ = (# вхождений в документ) / (# слов в документе)
Если мы возьмем вторую формулу, первая часть формулы (# вхождений в документ) равна 1, а вторая часть (# слов в документе) равна 4.
Таким образом, ТФ для слова «МОЁ» равно 1/4 или 0.25.
Таким же образом, ТФ для слов