Попробуйте эти 3 малоизвестные функции библиотеки Pandas

3 малоизвестные функции Pandas

Улучшите свои навыки обработки данных с помощью pandas

Фото от Balázs Kétyi на Unsplash

Если вы спросите опытного научного сотрудника по данным и инженера по машинному обучению, что занимает больше всего времени в их работе? Я думаю, что многие из них скажут: предобработка данных – шаг, который очищает данные и готовит их для последовательного анализа данных. Причина проста – мусор на входе, мусор на выходе. То есть, если вы не подготовите данные правильно, ваши “выводы” о данных могут быть едва ли осмысленными.

Хотя этот шаг предобработки данных может быть довольно утомительным, Pandas предоставляет все необходимые функции, которые позволяют нам относительно легко завершить нашу работу по очистке данных. Однако, из-за его универсальности, не каждый пользователь знает все функциональные возможности библиотеки pandas. В этой статье я хотел бы поделиться 3 малоизвестными, но очень полезными функциями, которые вы можете попробовать в своих проектах по науке о данных.

Без лишних слов, давайте погрузимся.

Примечание: Чтобы предоставить контекст, предположим, что вы отвечаете за управление данными и анализ в одном магазине одежды. Приведенные ниже примеры основаны на этом предположении.

1. explode

Первая функция, о которой я хочу упомянуть, это explode. Эта функция полезна, когда вы работаете с данными в столбце, содержащем списки. Когда вы используете explode с этим столбцом, вы создаете несколько строк, извлекая каждый элемент списка в отдельные строки.

Вот простой пример кода, чтобы показать вам, как использовать функцию explode. Предположим, у вас есть фрейм данных, в котором хранится информация о заказе. В этой таблице у вас есть столбец (т.е. столбец order), содержащий списки товаров, как показано ниже:

order_data = {    'customer': ['John', 'Zoe', 'Mike'],    'order': [['Shoes', 'Pants', 'Caps'], ['Jackets', 'Shorts'], ['Ties', 'Hoodies']]}order_df = pd.DataFrame(order_data)order_df

Необходимая операция – разделить каждый элемент списка на отдельную строку для дальнейшей обработки данных. Без использования explode, наивным решением может быть следующее. Мы просто перебираем исходные строки…