Tag: категориальные данные

Как отсортировать индексированный фрейм данных

В отличие от набора данных pandas на основе списка , у меня есть индексированный dataframe, как это: $ echo -e 'abc\txyz\t0.9\nefg\txyz\t0.3\nlmn\topq\t0.23\nabc\tjkl\t0.5\n' > test.txt $ cat test.txt abc xyz 0.9 efg xyz 0.3 lmn opq 0.23 abc jkl 0.5 $ python >>> import pandas as pd >>> df = pd.read_csv('test.txt', delimiter='\t', header=None, dtype={0:unicode, 1:unicode, 2:float}) >>> […]

pd.get_dummies () медленно на больших уровнях

Я не уверен, что это уже самый быстрый способ, или если я делаю это неэффективно. Я хочу, чтобы горячий кодировать конкретный категориальный столбец, который имеет 27k + возможных уровней. Столбец имеет разные значения в двух разных наборах данных, поэтому я сначала объединил уровни перед использованием get_dummies () def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[column_name].unique()) col1a = set(df[column_name].unique()) […]

Более быстрый способ удаления неиспользуемых категорий в пандах?

Я запускаю некоторые модели на Python, с подмножеством данных по категориям. Для использования памяти и предварительной обработки все категориальные переменные сохраняются как тип данных категории. Для каждого уровня категориальной переменной в столбце «group by» я запускаю регрессию, где мне нужно сбросить все свои категориальные переменные на те, которые присутствуют в этом подмножестве. В настоящее время […]

Проблемы с бинарным однократным (одно-K) кодированием в python

Двоичное однократное (также известное как однокоординатное) кодирование заключается в создании одного двоичного столбца для каждого отдельного значения для категориальной переменной. Например, если у вас есть цветной столбец (категориальная переменная), который принимает значения «красный», «синий», «желтый» и «неизвестный», тогда двоичное однострочное кодирование заменяет столбец цвета двоичными колонками «color = красный ',' color = blue 'и' color […]

Создайте манекены из столбца с несколькими значениями в пандах

Я ищу питоновский способ решения следующей проблемы. Метод pandas.get_dummies() отлично подходит для создания манекенов из категорного столбца блока данных. Например, если столбец имеет значения в ['A', 'B'] , get_dummies() создает 2 фиктивные переменные и соответственно присваивает 0 или 1. Теперь мне нужно справиться с этой ситуацией. Один столбец, назовем его «меткой», имеет такие значения, как […]

Python - лучший язык программирования в мире.