Два интересных метода манипуляции данными в Pandas, которые вам нужно знать

'Two interesting data manipulation methods in Pandas that you need to know.

Наука о данных

Крайне полезные функции библиотеки pandas для преобразования непрерывного столбца pandas в категориальные.

Фото от Brendan Church на Unsplash

Python pandas – мощная и широко используемая библиотека для анализа данных.

Она содержит более 200 функций и методов, которые делают манипулирование и преобразование данных легкими. Однако, знание всех этих функций и их использование в реальной работе не является выполнимой задачей.

Одна из обычных задач по манипулированию данными – преобразование столбца с непрерывными числовыми значениями в столбец с дискретными или категориальными значениями. И у pandas есть две потрясающие встроенные функции, которые определенно помогут вам сэкономить несколько минут.

Вы можете использовать такой тип преобразования данных для различных приложений, таких как группировка данных, анализ данных по дискретным группам или визуализация данных с использованием гистограмм.

Например,

Недавно я вычислял индекс Херфиндаль-Хиршмана (HHI), чтобы понять концентрацию рынка нескольких брендов. Так что в pandas DataFrame у меня был столбец с непрерывными значениями HHI для всех брендов. В конечном итоге я хотел преобразовать этот столбец в дискретный, чтобы классифицировать каждый бренд как низкую, среднюю и высокую концентрацию рынка – Вот откуда я черпал вдохновение для этой истории.

Не зная этих встроенных функций pandas, вам может понадобиться написать несколько блоков if-else и for для выполнения той же работы.

Поэтому здесь вы изучите 2 очень полезные встроенные функции pandas вместе с интересными примерами (включая мой проект), которые усилят ваш анализ данных и сэкономят вам несколько минут.

Часто вам нужно преобразовать столбец с непрерывными значениями в другой столбец с дискретными значениями в вашем проекте аналитики.

Таким образом, вы классифицируете непрерывные данные на несколько категорий, то есть блоков или групп. И вы можете сделать это, задавая минимальное и максимальное значения для каждого блока, то есть определяя границы блоков или указывая количество блоков.

В зависимости от вашей цели разделения непрерывной последовательности на дискретную, вы можете…