Tag: pandas

Добавить отсутствующий индекс даты в dataframe

Я загрузил CSV-файлы с индексом datetime, который является последним днем ​​месяцев в году. Я хотел заполнить отсутствующие даты пустыми значениями в виде строк. Ниже приведена моя файловая структура CSV Date Australia China 2011-01-31 4.75 5.81 2011-02-28 4.75 5.81 2011-03-31 4.75 6.06 2011-04-30 4.75 6.06 Я хочу заполнить все даты в месяц пустыми столбцами. Я попробовал […]

pandas to_sql дает ошибку декодирования Unicode

У меня есть файл данных pandas, загруженный через read_csv, который я пытаюсь нажать на базу данных через to_sql, когда я пытаюсь df.to_sql("assessmentinfo_pivot", util.ENGINE) Я возвращаю unicodeDecodeError: UnicodeEncodeError: 'ascii' codec can't encode characters in position 83-84: ordinal not in range(128) Нет опции кодирования для to_sql для указания utf-8 для to_sql, а Engine был создан с кодировкой, […]

Как построить график плотности ячеек даты в Pandas?

У меня есть панда данных, где каждое наблюдение имеет дату (в качестве столбца записей в формате datetime [64]). Эти даты распространяются в течение примерно 5 лет. Я хотел бы построить график плотности ядра по датам всех наблюдений с годами, помеченными на оси х. Я выяснил, как создать временную дельта относительно некоторой контрольной даты, а затем […]

Прочитайте файл с разделяемой вкладкой с первым столбцом в качестве ключа, а остальные как значения

У меня есть файл с разделителями вкладок с 1 миллиардом строк из них (предположим 200 столбцов вместо 3): abc -0.123 0.6524 0.325 foo -0.9808 0.874 -0.2341 bar 0.23123 -0.123124 -0.1232 Я хочу создать словарь, где строка в первом столбце – это ключ, а остальные – значения. Я делал это так, но это вычислительно дорого: import […]

Получить имя столбца, где значение – это что-то в pandas dataframe

Я пытаюсь найти в каждой временной отметке имя столбца в фреймворке данных, для которого значение совпадает с значением, указанным в тайм-файлах на той же отметке времени. Вот мой dataframe: >>> df col5 col4 col3 col2 col1 1979-01-01 00:00:00 1181.220328 912.154923 648.848635 390.986156 138.185861 1979-01-01 06:00:00 1190.724461 920.767974 657.099560 399.395338 147.761352 1979-01-01 12:00:00 1193.414510 918.121482 648.558837 […]

Ускорение за последние 60 дней в пандах

Я использую данные из прошлой задачи, основанной на панельных данных в нескольких магазинах, и период, охватывающий 2,5 года. Каждое наблюдение включает в себя количество клиентов на определенную дату хранения. Для каждой даты хранения моя цель – вычислить среднее число клиентов, посетивших этот магазин за последние 60 дней. Ниже приведен код, который делает именно то, что […]

назначать в pandas трубопроводе

Скажем, у меня есть следующий DataFrame с исходными входными данными и вы хотите обработать его с помощью цепочки функций pandas (« конвейер »). В частности, я хочу переименовать и удалить столбцы и добавить дополнительный столбец на основе другого. Gene stable ID Gene name Gene type miRBase accession miRBase ID 0 ENSG00000274494 MIR6832 miRNA MI0022677 hsa-mir-6832 […]

Pandas DataFrame содержит NaN после операции записи

Вот минимальный рабочий пример моей проблемы: import pandas as pd columns = pd.MultiIndex.from_product([['a', 'b', 'c'], range(2)]) a = pd.DataFrame(0.0, index=range(3),columns=columns, dtype='float') b = pd.Series([13.0, 15.0]) a.loc[1,'b'] = b # this line results in NaNs a.loc[1,'b'] = b.values # this yields correct behavior Почему первое присваивание неверно? Кажется, что обе серии имеют одинаковый индекс, поэтому я […]

Показывать группу на каждой записи в группе

Я использую панды и groupby для объединения. Я делаю следующее: data = {'ac' : ['a','a','a','a','a','a','a','a','b','b','b','b','b'], 'cls' ['wwww','wwww','wwww','xxxx','xxxx','zzzz','zzzz','yyyy','wwww','xxxx','zzzz','zzzz','yyyy'], 'pl' : [1,1,1,1,1,1,1,1,1,1,1,1,1]} df = pd.DataFrame(data) grouped = df.groupby(['ac','cls']).agg({'pl':np.sum}) pl ac cls a wwww 3 xxxx 2 yyyy 1 zzzz 2 b wwww 1 xxxx 1 yyyy 1 zzzz 2 Есть ли способ сделать groupby где он заполнит […]

распаковка данных с помощью Pandas

У меня есть данные, которые я беру от «длинного» до «широкого». У меня нет проблем с использованием unstack чтобы сделать данные широкими, но потом я получаю то, что выглядит как индекс, от которого я не могу избавиться. Вот фиктивный пример: ## set up some dummy data import pandas as pd d = {'state' : ['a','b','a','b','a','b','a','b'], […]

Python - лучший язык программирования в мире.