Tag: категориальные данные

XGBoost Категориальные переменные: Dummification vs encoding

При использовании XGBoost нам нужно преобразовать категориальные переменные в числовые. Будет ли какая-либо разница в показателях производительности / оценки между методами: dummifying ваши категориальные переменные кодируя ваши категориальные переменные от eg (a, b, c) до (1,2,3) ТАКЖЕ: labelencoder ли какие-либо причины не идти с методом 2, используя, например, labelencoder ?

Категориальные переменные в кадре данных Pandas?

Я работаю через Wes's Python для анализа данных, и у меня возникла странная проблема, которая не рассматривается в книге. В приведенном ниже коде, основываясь на стр. 199 его книги, я создаю dataframe, а затем с помощью pd.cut() создаю cat_obj . Согласно этой книге, cat_obj является «специальный категориальный объект. Вы можете рассматривать его как массив строк, […]

Как отсортировать индексированный фрейм данных

В отличие от набора данных pandas на основе списка , у меня есть индексированный dataframe, как это: $ echo -e 'abc\txyz\t0.9\nefg\txyz\t0.3\nlmn\topq\t0.23\nabc\tjkl\t0.5\n' > test.txt $ cat test.txt abc xyz 0.9 efg xyz 0.3 lmn opq 0.23 abc jkl 0.5 $ python >>> import pandas as pd >>> df = pd.read_csv('test.txt', delimiter='\t', header=None, dtype={0:unicode, 1:unicode, 2:float}) >>> […]

pd.get_dummies () медленно на больших уровнях

Я не уверен, что это уже самый быстрый способ, или если я делаю это неэффективно. Я хочу, чтобы горячий кодировать конкретный категориальный столбец, который имеет 27k + возможных уровней. Столбец имеет разные значения в двух разных наборах данных, поэтому я сначала объединил уровни перед использованием get_dummies () def hot_encode_column_in_both_datasets(column_name,df,df2,sparse=True): col1b = set(df2[column_name].unique()) col1a = set(df[column_name].unique()) […]

Более быстрый способ удаления неиспользуемых категорий в пандах?

Я запускаю некоторые модели на Python, с подмножеством данных по категориям. Для использования памяти и предварительной обработки все категориальные переменные сохраняются как тип данных категории. Для каждого уровня категориальной переменной в столбце «group by» я запускаю регрессию, где мне нужно сбросить все свои категориальные переменные на те, которые присутствуют в этом подмножестве. В настоящее время […]

Проблемы с бинарным однократным (одно-K) кодированием в python

Двоичное однократное (также известное как однокоординатное) кодирование заключается в создании одного двоичного столбца для каждого отдельного значения для категориальной переменной. Например, если у вас есть цветной столбец (категориальная переменная), который принимает значения «красный», «синий», «желтый» и «неизвестный», тогда двоичное однострочное кодирование заменяет столбец цвета двоичными колонками «color = красный ',' color = blue 'и' color […]

Создайте манекены из столбца с несколькими значениями в пандах

Я ищу питоновский способ решения следующей проблемы. Метод pandas.get_dummies() отлично подходит для создания манекенов из категорного столбца блока данных. Например, если столбец имеет значения в ['A', 'B'] , get_dummies() создает 2 фиктивные переменные и соответственно присваивает 0 или 1. Теперь мне нужно справиться с этой ситуацией. Один столбец, назовем его «меткой», имеет такие значения, как […]

 
Interesting Posts for Van-Lav

скрипт python для запроса веб-сайта MIT START с локальной машины

как сделать git diff текущей фиксации с последней фиксацией с помощью gitpython?

Введите имя столбца в качестве параметра PostgreSQL, используя psycopg2

Строка Python как аргумент файла для подпроцесса

Как построить несколько осей X или Y в matplotlib?

Пигмейт

Каков наилучший способ создания токена сброса в python?

Выбор столбцов в кадре данных pandas

Поиск и удаление элемента с помощью элемента elementTree в Python

Существует ли распределение случайных чисел, которое подчиняется Закону Бенфорда?

Оставляя строки с указанием значения в столбце

Чистая настройка max_retries на запросы Python получает или отправляет метод

Какую версию Visual Studio и / или MinGW мне нужно для создания модулей расширения для данной версии Python?

Пересечение двух списков диапазонов в Python

Как очистить веб-сайт с помощью защиты сукури

Python - лучший язык программирования в мире.