7 примеров для освоения операций с категориальными данными с помощью Python Pandas
7 примеров по работе с категориальными данными с использованием Python Pandas
Используйте тип данных «категория» при работе с низкоразмерными категориальными признаками
Категориальные переменные могут принимать значения из ограниченного количества фиксированных значений. Вот несколько примеров категориальных переменных:
- Уровень владения английским языком (A1, A2, B1, B2, C1, C2)
- Группа крови человека (A, B, AB, 0)
- Демографическая информация, такая как раса и пол
- Уровень образования
Pandas предоставляет специальный тип данных для категориальных переменных (категория
или CategoricalDtype
). Хотя такие данные также можно сохранить с помощью типов данных object
или строка
, есть несколько преимуществ использования типа данных категория
. Мы рассмотрим эти преимущества, но давайте сначала начнем с того, как работать с категориальными данными.
При создании Series или DataFrame с текстовыми данными их тип данных по умолчанию становится object
. Чтобы использовать тип данных категория
, мы должны явно его определить.
import pandas as pd# создание Seriesblood_type = pd.Series(["A", "B", "AB", "0"])print(blood_type)# вывод0 A1 B2 AB3 0dtype: object# создание Series с типом данных "категория"blood_type = pd.Series(["A", "B", "AB", "0"], dtype="категория")print(blood_type)# вывод0 A1 B2 AB3 0dtype: категорияКатегории (4, object): ['0', 'A', 'AB', 'B']
Хотя значения такие же, типы данных разные, как показано с помощью dtype
, когда вы печатаете Series.
- AI Кодинг Является ли Google Bard хорошим разработчиком Python?
- DL Заметки Градиентный спуск
- 5-шаговая схема для решения вашей следующей проблемы в области науки о данных
Мы рассмотрим 7 наборов примеров для изучения следующих тем:
- Тип данных “категория” в DataFrame
- Категории
- Добавление и обновление значений
- Добавление и удаление категорий
- Порядок среди категорий
- Переименование категорий
- Преимущества использования типа данных “категория”
Пример 1 – тип данных “категория” в DataFrames
Мы можем объявить тип данных категория
при создании Series или DataFrame, как мы сделали выше. Мы также можем преобразовать их в тип данных категория
впоследствии, используя …