7 примеров для освоения операций с категориальными данными с помощью Python Pandas

7 примеров по работе с категориальными данными с использованием Python Pandas

Используйте тип данных «категория» при работе с низкоразмерными категориальными признаками

(изображение создано автором)

Категориальные переменные могут принимать значения из ограниченного количества фиксированных значений. Вот несколько примеров категориальных переменных:

  • Уровень владения английским языком (A1, A2, B1, B2, C1, C2)
  • Группа крови человека (A, B, AB, 0)
  • Демографическая информация, такая как раса и пол
  • Уровень образования

Pandas предоставляет специальный тип данных для категориальных переменных (категория или CategoricalDtype). Хотя такие данные также можно сохранить с помощью типов данных object или строка, есть несколько преимуществ использования типа данных категория. Мы рассмотрим эти преимущества, но давайте сначала начнем с того, как работать с категориальными данными.

При создании Series или DataFrame с текстовыми данными их тип данных по умолчанию становится object. Чтобы использовать тип данных категория, мы должны явно его определить.

import pandas as pd# создание Seriesblood_type = pd.Series(["A", "B", "AB", "0"])print(blood_type)# вывод0     A1     B2    AB3     0dtype: object# создание Series с типом данных "категория"blood_type = pd.Series(["A", "B", "AB", "0"], dtype="категория")print(blood_type)# вывод0     A1     B2    AB3     0dtype: категорияКатегории (4, object): ['0', 'A', 'AB', 'B']

Хотя значения такие же, типы данных разные, как показано с помощью dtype, когда вы печатаете Series.

Мы рассмотрим 7 наборов примеров для изучения следующих тем:

  1. Тип данных “категория” в DataFrame
  2. Категории
  3. Добавление и обновление значений
  4. Добавление и удаление категорий
  5. Порядок среди категорий
  6. Переименование категорий
  7. Преимущества использования типа данных “категория”

Пример 1 – тип данных “категория” в DataFrames

Мы можем объявить тип данных категория при создании Series или DataFrame, как мы сделали выше. Мы также можем преобразовать их в тип данных категория впоследствии, используя …