Очистка данных в Python

Полная очистка данных с помощью Python

Очистка данных в Python с использованием библиотеки Panda

Scott Graham на Unsplash

Сегодня я покажу вам, как реализовать очистку данных с использованием библиотеки pandas.

Данные:

Набор данных, используемых в этой публикации, взят из open-rice Hongkong

Часто задаваемые вопросы | OpenRice Hong Kong

www.openrice.com

Исходные данные можно найти здесь:

https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv

Pandas – это библиотека Python, которая может быть импортирована как pd для сокращения.

В pandas существуют разные способы или формы очистки наборов данных, и сегодня я сосредоточусь только на трех направлениях.

Изображение от автора

Вышеприведенная диаграмма иллюстрирует три способа очистки данных, которые я буду реализовывать сегодня.

Изучение набора данных

import pandas as pd

df=pd.read_csv('data/open-rice.csv')df.head()
Топ 5 строк таблицы: фото автора

Выше набор данных импортирован в jupyter notebook и сохранен в объекте DataFrame Pandas.

Ниже приведены первые 5 полей, поэтому при вводе df. Head (), по умолчанию отображаются первые 5 строк в таблице данных.

В pandas DataFrame представляет собой двумерную структуру с метками. DataFrame можно сравнить с таблицей SQL или электронной таблицей Excel.

df.columns
Названия полей в таблице данных: фото автора
df.info()