Обработка текста для подготовки к машинному обучению в Python — Обработка естественного языка

Обработка текста для подготовки к машинному обучению в Python Обработка естественного языка

Фото от Kiril Dobrev на Unsplash

Некоторые распространенные техники предварительной обработки текста на Python с примерами

В этом веке социальных медиа и интернет-бизнеса текстовые данные идут отовсюду. Однако работа с текстовыми данными затруднительна. Потому что исходный текст может содержать все виды примесей, ненужных шумов, орфографических ошибок и других недочетов. Поэтому необходимо выполнить соответствующую предварительную обработку перед приступлением к моделированию с использованием текстовых данных.

В этой статье мы рассмотрим некоторые распространенные техники предварительной обработки текста для машинного обучения.

Удаление чисел

Числа в тексте могут ввести в заблуждение модели машинного обучения. Поскольку в конечном итоге текст должен быть преобразован в числа. Каждый текст преобразуется в число. Если текст снова содержит числа, это может ненужно вмешаться с этими числами. Поэтому удаление чисел может быть полезно.

Здесь я использовал регулярные выражения для удаления чисел. Поэтому сначала мне понадобилось импортировать ‘re’.

import re  text = "В классе A учатся 35 студентов, в классе B - 29 студентов, и все они хороши в математике"res = re.sub(r'\d+', '', text)res 

Output:

'В классе A учатся студентов, в классе B - студентов, и все они хороши в математике'

Весь текст потерял числа.

Удаление лишних пробелов

Это еще одна забавная проблема. Иногда в начале и в конце исходных данных появляется лишний пробел, который не кажется проблемой. Но он может вызывать проблемы. Если есть лишний пробел, одно и то же слово может появиться как два разных слова. Например, если мы добавим лишний пробел в начале слова “песня” при разработке модели, это будет рассматриваться как отдельное слово от “песня” исключительно из-за пробела, что может негативно сказаться на производительности модели.

st = "результат был отличный"st.strip()

Output:

'результат был отличный'

Пробелы в начале и в конце исчезли.

Я использовал данные twitter.csv с Kaggle для …