Tag: pandas

Рекурсивное устранение функции в случайном лесу с использованием scikit-learn

Я пытаюсь scikit-learn рекурсивную функцию, используя scikit-learn и случайный классификатор леса, с OOB ROC как метод подсчета каждого подмножества, созданного во время рекурсивного процесса. Однако, когда я пытаюсь использовать метод RFECV , я получаю сообщение об ошибке: AttributeError: 'RandomForestClassifier' object has no attribute 'coef_' Случайные леса не имеют коэффициентов как таковых, но они имеют рейтинг […]

Фильтрация всех строк с помощью NaT в столбце в python Dataframe

У меня есть df: abc 1 NaT w 2 2014-02-01 g 3 NaT x df=df[df.b=='2014-02-01'] даст мне abc 2 2014-02-01 g Мне нужна база данных всех строк с NaT в столбце b? df=df[df.b==None] #Doesn't work Я хочу это: abc 1 NaT w 3 NaT x

Как группировать серию по значениям в пандах?

В настоящее время у меня есть Series pandas с отметкой Timestamp dtype, и я хочу сгруппировать ее по дате (и у вас много строк разного времени в каждой группе). Казалось бы, очевидный способ сделать это будет чем-то подобным grouped = s.groupby(lambda x: x.date()) Тем не менее, группа pandas groupby по своему индексу. Как я могу […]

Более быстрый способ выполнить эту задачу Pandas, чем использовать приложение для большого набора данных?

У меня есть большой набор данных CSV-файлов, состоящий из двух разных объектов: «object_a» и «object_b». Каждое из этих объектов имеет числовое значение «галочка». Type, Parent Name, Ticks object_a, 4556421, 34 object_a, 4556421, 0 object_b, 4556421, 0 object_a, 3217863, 2 object_b, 3217863, 1 …… Каждый объект имеет значение «Родительское имя», поэтому в большинстве случаев один из […]

Устранение всех данных по данному процентили

У меня есть pandas DataFrame называемый data с столбцом ms . Я хочу исключить все строки, где data.ms выше 95% процентиля. Пока я это делаю: limit = data.ms.describe(90)['95%'] valid_data = data[data['ms'] < limit] который работает, но я хочу обобщить это на любой процентиль. Каков наилучший способ сделать это?

Установка Pandas на Mac OSX

У меня возникла проблема с установкой библиотеки Python Pandas на моем компьютере Mac OSX. В терминале введите следующее: $ sudo easy_install pandas Но тогда я получаю следующее: Searching for pandas Reading http://pypi.python.org/simple/pandas/ Reading http://pandas.pydata.org Reading http://pandas.sourceforge.net Best match: pandas 0.9.0 Downloading http://pypi.python.org/packages/source/p/pandas/pandas- 0.9.0.zip#md5=04b1d8e11cc0fc30ae777499d89003ec Processing pandas-0.9.0.zip Writing /tmp/easy_install-ixjbQO/pandas-0.9.0/setup.cfg Running pandas-0.9.0/setup.py -q bdist_egg –dist-dir /tmp/easy_install-ixjbQO/pandas- 0.9.0/egg-dist-tmp-EGREoT warning: […]

Pandas DataFrame: как изначально получить минимальное количество строк и столбцов

У меня есть Pandas DataFrame, который похож на этот, но с 10 000 строк и 500 столбцов. Для каждой строки я хотел бы найти минимальное значение между 3 днями назад в 15:00 и сегодня в 13:30. Есть ли какой-нибудь собственный способ numpy сделать это быстро? Моя цель – получить минимальное значение для каждой строки, сказав […]

Назначить новые значения срезу из MultiIndex DataFrame

Я хотел бы изменить некоторые значения из столбца в моем DataFrame. На данный момент у меня есть представление из select через мультииндекс моего исходного df (и изменение меняет df ). Вот пример: In [1]: arrays = [np.array(['bar', 'bar', 'baz', 'qux', 'qux', 'bar']), np.array(['one', 'two', 'one', 'one', 'two', 'one']), np.arange(0, 6, 1)] In [2]: df = […]

Условная логика в Pandas DataFrame

Как применить условную логику к Pandas DataFrame. См. DataFrame, показанный ниже, data desired_output 0 1 False 1 2 False 2 3 True 3 4 True Мои исходные данные отображаются в столбце «данные», а рядом с ним отображается желаемый_выход. Если число в «данных» не превышает 2.5, значение «желаемое» равно False. Я мог бы применить цикл и […]

Установить значения на диагонали pandas.DataFrame

У меня есть рамка данных pandas. Я хотел бы поставить диагональ на 0 import numpy import pandas df = pandas.DataFrame(numpy.random.rand(5,5)) df Out[6]: 0 1 2 3 4 0 0.536596 0.674319 0.032815 0.908086 0.215334 1 0.735022 0.954506 0.889162 0.711610 0.415118 2 0.119985 0.979056 0.901891 0.687829 0.947549 3 0.186921 0.899178 0.296294 0.521104 0.638924 4 0.354053 0.060022 0.275224 […]

Python - лучший язык программирования в мире.