Tag: категориальные данные

Более быстрый способ удаления неиспользуемых категорий в пандах?

Я запускаю некоторые модели на Python, с подмножеством данных по категориям. Для использования памяти и предварительной обработки все категориальные переменные сохраняются как тип данных категории. Для каждого уровня категориальной переменной в столбце «group by» я запускаю регрессию, где мне нужно сбросить все свои категориальные переменные на те, которые присутствуют в этом подмножестве. В настоящее время […]

Проблемы с бинарным однократным (одно-K) кодированием в python

Двоичное однократное (также известное как однокоординатное) кодирование заключается в создании одного двоичного столбца для каждого отдельного значения для категориальной переменной. Например, если у вас есть цветной столбец (категориальная переменная), который принимает значения «красный», «синий», «желтый» и «неизвестный», тогда двоичное однострочное кодирование заменяет столбец цвета двоичными колонками «color = красный ',' color = blue 'и' color […]

Создайте манекены из столбца с несколькими значениями в пандах

Я ищу питоновский способ решения следующей проблемы. Метод pandas.get_dummies() отлично подходит для создания манекенов из категорного столбца блока данных. Например, если столбец имеет значения в ['A', 'B'] , get_dummies() создает 2 фиктивные переменные и соответственно присваивает 0 или 1. Теперь мне нужно справиться с этой ситуацией. Один столбец, назовем его «меткой», имеет такие значения, как […]

Python - лучший язык программирования в мире.