Tag: pandas

ошибка конкатенации мультииндексов pandas dataframes (категориальная)

L – это список файлов данных с несколькими индексами в строках. pd.concat(L,axis=1) Я получаю следующую ошибку (из конструктора categorical.py в categorical.py ): TypeError: «values» не упорядочивается, явно укажите порядок категорий, передав аргумент категорий. Это явно имеет отношение к значениям в моем фреймворке данных, так как я могу заставить его работать, если я каким-то образом ограничу […]

ряды квантов в последовательности, содержащие бесконечность?

У меня есть следующий фреймворк: calc_value 0 NaN 1 0.000000 2 0.100000 3 0.500000 4 2.333333 5 inf Теперь я хочу рассчитать несколько квантилей: print df.quantile(.1)['calc_value'] print df.quantile(.25)['calc_value'] print df.quantile(.5)['calc_value'] print df.quantile(.75)['calc_value'] print df.quantile(.9)['calc_value'] Но это возвращает: 0.04 0.1 0.5 nan inf Я не понимаю, почему 75-й квантил работает таким образом. Разве это не бесконечность?

Как я могу читать в CSV-файле как MultiIndexed DataFrame, когда заголовок заголовка столбца не повторяется?

У меня есть несколько CSV-файлов, которые я бы хотел прочитать как MultiIndexed DataFrames, но заголовок заголовка spanning не повторяется, и поэтому я остаюсь с двумя заголовками, а не с MultiIndex. Файл test.csv: A,,B,,C, a1,a2,b1,b2,c1,c2 1,1,1,1,1,1 2,2,2,2,2,2 Когда я запускаю следующее, import pandas as pd df = pd.read_csv('test.csv', header=[0,1]) print(df) возвращаемая структура не является тем, что […]

Преобразование Pandas DataFrame в Spark DataFrame

Я задал предыдущий вопрос о том, как преобразовать scipy разреженную матрицу в pyspark.sql.dataframe.DataFrame и сделал некоторый прогресс после прочтения предоставленного ответа, а также этой статьи . В конце концов я пришел к следующему коду для преобразования scipy.sparse.csc_matrix в рамку данных pandas: df = pd.DataFrame(csc_mat.todense()).to_sparse(fill_value=0) df.columns = header Затем я попытался преобразовать рамку данных pandas в […]

Не удалось установить панды на AWS Lambda

Я пытаюсь установить и запустить pandas на экземпляре Amazon Lambda. Я использовал рекомендованный почтовый метод для упаковки моего файла кода model_a.py и связанных с ним библиотек python ( pip install pandas -t /path/to/dir/ ) и загрузил zip в Lambda. Когда я пытаюсь запустить тест, это сообщение об ошибке, которое я получаю: Не удалось импортировать модуль […]

Создание таблицы непредвиденных обстоятельств Pandas с подсчетами и процентами

Есть ли лучший способ создать таблицу непредвиденных обстоятельств в pandas с помощью pd.crosstab () или pd.pivot_table () для генерации счетчиков и процентов . Текущее решение cat=['A','B','B','A','B','B','A','A','B','B'] target = [True,False,False,False,True,True,False,True,True,True] import pandas as pd df=pd.DataFrame({'cat' :cat,'target':target}) использование кросс-таблицы totals=pd.crosstab(df['cat'],df['target'],margins=True).reset_index() percentages = pd.crosstab(df['cat'], df['target']).apply(lambda row: row/row.sum(),axis=1).reset_index() и слияние summaryTable=pd.merge(totals,percentages,on="cat") summaryTable.columns=['cat','#False', '#True','All','percentTrue','percentFalse'] вывод +—+—–+——–+——-+—–+————-+————–+ | | cat | […]

Получение информации о времени из строки с pandas и datatime в Python

Я занимаюсь тестовыми упражнениями для летней школы, и это мой первый опыт работы с python. Говорят, что я могу получить информацию о времени с помощью следующего кода: import pandas as pd from datetime import datetime def print_time_range(times): print('Time from: {0}, to: {1}'.format(datetime.fromtimestamp(times.min()), datetime.fromtimestamp(times.max()))) train_likes_df = pd.read_csv('train_likes.csv') print train_likes_df.shape train_likes_df.head(3) print_time_range(train_likes_df.time) который даст мне результат: Time […]

Pagination on pandas dataframe.to_html ()

У меня огромный пакет данных pandas, который я конвертирую в html-таблицу, т.е. dataframe.to_html() , ее около 1000 строк. Любой простой способ использовать разбивку на страницы так, что мне не нужно прокручивать все 1000 строк. Скажем, просмотрите первые 50 строк, затем нажмите рядом с последующими 50 строками?

Проблема с утечкой памяти с помощью панд

У меня проблема с утечкой памяти с помощью pandas Dataframe . По-видимому, это проблема с информацией: утечка памяти с использованием рамки данных pandas Трюки, используемые в ответе (используйте gc.collect для сбора мусора и свободной памяти вручную), работает, но довольно медленно. Моя проблема в том, что мне нужно запустить этот цикл на частоте 500 Гц: без […]

Keyerror в matplotlib, когда столбец четко существует

Я пытаюсь построить следующий код: df.plot(kind='scatter',x='branch', y='retention', s=df['active_users']*200) Который дает мне следующую ошибку: KeyError Traceback (most recent call last) <ipython-input-17-e43e5aeff662> in <module>() 3 df = Flexbooks[Flexbooks['schoolyearsemester'] == StartSem][Flexbooks['branch'] != 'OTHE'][Flexbooks['branch'] != 'SSCI'][Flexbooks['branch'] != 'EM1'][Flexbooks['branch'] != 'EM2'][Flexbooks['branch'] != 'EM3'][Flexbooks['branch'] != 'EM4'][Flexbooks['branch'] != 'EM5'][Flexbooks['branch'] != 'SATP'][Flexbooks['branch'] != 'MORE'][Flexbooks['branch'] != 'SPEL'][Flexbooks['branch'] != 'ENG'][Flexbooks['branch'] != 'ENGG'][Flexbooks['branch'] != 'NANO'][Flexbooks['branch'] != […]

Python - лучший язык программирования в мире.