Tag: pandas

попарно сопоставлять строки данных с python / pandas (позиционные индексы являются вне границ)

Мне нужно сравнить каждую строку с предыдущей по значению столбца (имя столбца, представляющего интерес, value ), и если они имеют одинаковое значение, я хочу удалить одну из строк. name value Mark True Anna False Steven True Karl False Peter False Laure True Поэтому я хочу удалить строку с Карлом, потому что его значение повторяется в […]

мой DataFrame имеет значения NaN, но не должен

Я не могу получить доступ к первой строке данных (неиндекс), которые у меня есть, все остальные в порядке: df = pd.read_csv('stock_conf_GT_50.csv') df.head() Данные выглядят прекрасно: close eqId date IntDate expiry delta ivMid conf 0 37.380005 7 2008-01-02 39447 1 50 0.3850 0.8663 1 37.380005 7 2008-01-02 39447 1 90 0.5053 0.7876 2 36.960007 7 2008-01-03 […]

Geopandas Spatial Joins – невозможно импортировать файлы geandas.tools

В настоящее время я выполняю свою работу по ГИС в Python, используя комбинацию Pandas и ArcPy. Недавно я услышал о Geopandas и заинтересован в том, чтобы научиться использовать это как альтернативу ArcPy для основных операций геообработки (пространственные точки соединения с полигонами, пересекающиеся многоугольники и т. Д.). Я установил Geopandas и его зависимости (gdal, shapely, fiona […]

Вставка данных из dataframe в массив numpy

Я вставляю данные из dataframe df с 55 строками в матрицу numpy matrix_of_coupons_and_facevalues с формой (55,60). Я делаю это, используя приведенный ниже код. Однако я получаю ошибку IndexError: index 55 is out of bounds for axis 0 with size 55 . months_to_maturity содержит числа [6:6:330] . for (i,row) in df.iterrows(): matrix_of_coupons_and_facevalues[i,0:(row.months_to_maturity/ 6)-1] = 1/2 matrix_of_coupons_and_facevalues[i,(row.months_to_maturity/6)-1] […]

Невозможно изменить тип данных в кадре данных

У меня фрейм данных df выглядит так: birth_year person 0 1980 0 1 1981 1 2 1982 2 3 1983 3 4 1984 4 столбец birth_year выглядит как числа, но когда я проверяю тип данных df['birth_year'].dtype результат dtype('O') поэтому я подумал, что это может быть строка, и попытался преобразовать ее в числа с df['birth_year'].astype('int') но […]

Subset Pandas Dataframe Все до даты

У меня есть dataframe со следующими данными: ACCOCI_ARQ ASSETSAVG_ART ASSETSC_ARQ ASSETSNC_ARQ ASSETS_ARQ Date 2004-02-10 -31000000 6647000000 6029000000 942000000 6971000000 2004-03-27 NaN NaN NaN NaN NaN 2004-05-06 -10000000 6740500000 5784000000 951000000 6735000000 2004-06-26 NaN NaN NaN NaN NaN 2004-08-05 -18000000 6936000000 6286000000 937000000 7223000000 Мне дана дата в собственном объекте Timestamp pandas. Эта дата может быть […]

Re-shape pandas dataframe stack / unstack

df = pd.DataFrame({'BORDER':['GERMANY','FRANCE','ITALY','USA','CANADA','MEXICO','INDIA','CHINA','JAPAN' ], 'ASID':[21, 32, 99, 77,66,55,44,88,111], 'HOUR1':[2 ,2 ,2 ,4 ,4 ,4 ,6 ,6, 6],'HOUR2':[3 ,3 ,3, 5 ,5 ,5, 7, 7, 7], 'HOUR3':[8 ,8 ,8, 12 ,12 ,12, 99, 99, 99], 'PRICE1':[2 ,2 ,2 ,4 ,4 ,4 ,6 ,6, 6], 'PRICE2':[2 ,2 ,2 ,4 ,4 ,4 ,6 ,6, 6],'PRICE3':[2 ,2 ,2 ,4 […]

pandas: обработка DataFrame с большим количеством строк

Я хочу читать и обрабатывать большой файл CSV ( data_file ), имеющий следующую структуру из двух столбцов: id params 1 '14':'blah blah','25':'more cool stuff' 2 '157':'yes, more stuff','15':'and even more' 3 '14':'blah blah','25':'more cool stuff' 4 '15':'different here' 5 '157':'yes, more stuff','15':'and even more' 6 '100':'exhausted' Этот файл содержит 30 000 000 строк (5 Гб […]

Графическая диаграмма -цветы python

У меня есть фрейм панды, который я хочу построить в виде барчата, данные имеют следующую форму; Year ISO Value Color 2007 GBR 500 0.303 DEU 444 0.875 FRA 987 0.777 2008 GBR 658 0.303 USA 432 0.588 DEU 564 0.875 2009 … etc я попытался перебрать данные в следующем порядке; import matplotlib.pyplot as plt import […]

Как применить функцию на Серии

Учитывая серию s : Name 0 Tennessee Oilers 1 Tennessee Titans 2 Washington Redskins Я хотел бы применить функцию для переименования значений. translate = { 'Houston Oilers': 'Tennessee Titans', 'Tennessee Oilers': 'Tennessee Titans' } s = s.apply(lambda x: translate.get(x, x)) И это поднимает: TypeError: ("'Series' objects are mutable, thus they cannot be hashed", u'occurred at […]

Python - лучший язык программирования в мире.