7 визуализаций с использованием Python для работы с многомерными категориальными данными

7 визуализаций с Python для работы с многомерными категориальными данными

Идеи для отображения сложных категориальных данных простыми способами.

Фото от Kaizen Nguyễn на Unsplash

Обычные данные, такие как известные наборы данных iris или penguin, используемые для анализа, довольно просты, поскольку они содержат только несколько категориальных переменных. Кстати, реальные данные могут быть более сложными и содержать более двух уровней категорий.

Многомерные категориальные данные – это тип данных, который имеет множество категорий. Например, давайте подумаем о группировке людей. Мы можем получить много возможностей, поскольку у человека могут быть различные характеристики в зависимости от категорий, таких как пол, национальность, диапазон зарплаты или уровень образования. Также у автомобилей есть разнообразные категориальные переменные, такие как марка, страна происхождения, тип топлива, сегменты и т. д.

Примеры визуализации для отображения многомерных категориальных данных в этой статье. Изображения от автора.

Рекомендуется проводить исследовательский анализ данных (EDA), используя визуализацию данных, чтобы лучше понять данные. Диаграммы, такие как столбчатые или круговые диаграммы, являются базовым выбором для отображения простых категориальных данных. Кстати, отображение многомерных категориальных данных может быть более сложным, поскольку имеется много уровней категориальных переменных. Таким образом, в этой статье будет рассмотрено использование диаграмм, которые могут выразить данные с несколькими уровнями категорий.

Получение данных

Начните с импорта библиотек.

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

В этой статье будет использоваться набор данных-заглушка, содержащий 5 категорий. Сгенерированный набор данных содержит информацию о покупателях продуктовых магазинов: местоположение, продукт, способ оплаты, пол и возрастная группа. Каждая категориальная переменная может быть сгенерирована с использованием библиотеки random, как показано в приведенном ниже коде.

Следующий шаг можно пропустить, если вы хотите попробовать код визуализации с другими многомерными категориальными наборами данных.