Tag: dataframe

Добавление строк, имеющих одинаковое значение столбца в кадре данных pandas

У меня есть кадр данных pandas с датами и часами в виде столбцов. Теперь я хочу добавить часы тех же дат. Например, чтобы сделать следующее: 7-1-2016 | 4 7-1-2016 | 2 4-1-2016 | 5 В этом: 7-1-2016 | 6 4-1-2016 | 5 Есть ли быстрый способ сделать это в больших файлах?

Проблема с добавлением к DataFrame, если пустая

У меня есть кадр данных, который я инициализирую из области локального метода. Я хотел бы сделать следующее: def outer_method(): … do outer scope stuff here df = pd.DataFrame(columns=['A','B','C','D']) def recursive_method(arg): … do local stuff here # func returns a data frame to be appended to empty data frame results_df = func(args) df.append(results_df, ignore_index=True) return results […]

Pandas: группа по значению индекса, а затем вычислить квантиль?

У меня индексируется DataFrame в столбце month (устанавливается с помощью df = df.set_index('month') , если это имеет значение): org_code ratio_cost month 2010-08-01 1847 8.685939 2010-08-01 1848 7.883951 2010-08-01 1849 6.798465 2010-08-01 1850 7.352603 2010-09-01 1847 8.778501 Я хочу добавить новый столбец с именем quantile , который будет присваивать значение ratio_cost каждой строке, исходя из значения […]

Создание графика PyGal из базы данных pandas

Я хотел попробовать использовать pygal с возможностью создания SVG-данных, поскольку я собираюсь создать печатную страницу PDF из объединенного HTML с графиком SVG. То, что я хочу сделать, это эквивалент pygal.plot (dataframe), но я не вижу этого в документах. Я знаю, что могу: df = pd.Series(np.random.randn(5), index = ['a', 'b', 'c', 'd', 'e']) chart = pygal.Line() […]

Pandas, Объединить строковые столбцы с условиями, но получить значение истинности серии неоднозначно

Я хочу присоединиться к столбцам Pandas DataFrame с условиями – разделять столбцы с запятой только в том случае, если конечный не пуст: import numpy as np import pandas as pd df = pd.DataFrame({'score':np.random.randn(3), 'person1':[x*3 for x in list('ABC')], 'person2':[x*3 for x in list('DEF')]}) df df['person2'][1]="" #print(df['person1']+("" if df['person2']=="" else ", "+df['person2']) ) #print(df['person1']+("" if not […]

Dataframe – нормализовать максимальный размер каждой строки за строкой

Есть ли удобный способ нормализовать максимальный максимум каждой строки по строке (разделите по строке), например: df= ABC 2 1 1 1 4 1 0 2 1 return: ABC 1 0.5 0.5 0.25 1 0.25 0 1 0.5

DataFrame К пользовательскому формату

У меня есть dataframe name salary department position a 25000 x normal employee b 50000 y normal employee c 10000 y experienced employee d 20000 x experienced employee Я хотел бы получить результат, как в следующем формате: dept total salary salary_percentage count_normal_employee count_experienced_employee x 55000 55000/115000 1 1 y 60000 60000/115000 1 1

Установка ячейки, равной значению в пандах

Сейчас я чувствую себя идиотом, почему это не работает results = pd.DataFrame(columns=['avg_daily_rets','cum_rets','STDEV','Sharpe']) results.cum_rets = 4 results возвращается avg_daily_rets cum_rets STDEV Sharpe без значений в то время как results = pd.DataFrame(columns=['avg_daily_rets','cum_rets','STDEV','Sharpe']) results.cum_rets = np.arange(5) results возвращается avg_daily_rets cum_rets STDEV Sharpe 0 NaN 0 NaN NaN 1 NaN 1 NaN NaN 2 NaN 2 NaN NaN 3 […]

Назад-добавить целые числа в индексе на основе данных на основе данных pandas из другого фрейма данных

У меня есть два pandas DataFrames и вы хотите получить результат, основанный на следующем: * DataFrame 1 имеет число с плавающей точкой, и не имеет значения, какие значения находятся во втором DataFrame. Оба DataFrames имеют одинаковое количество столбцов, но df1 имеет несколько дополнительных строк, потому что в нем есть больше записей в своем индексе, распространяемых […]

Как сравнивать строки фрейма данных в python для равенства

1 0 0 0 1 0 0 0 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1 У меня есть dataframe (см. Выше). Мне нужно сравнить их строки, чтобы получить соответствующие строки. Итак, для приведенного выше df я должен получить row1 = […]

Python - лучший язык программирования в мире.