Tag: pandas

Аннотируя грациозно панда сюжет с текстами, которые не перекрываются

У меня есть приведенный ниже фреймворк pandas, содержащий некоторые события и число, которое я ищу для построения и комментирования с подробной информацией о событиях на диаграмме: Date Time Time Zone Currency Event Importance Actual Forecast Previous Count Volume DateTime 2014-04-09 00:30:00 Wed Apr 9 00:30 GMT aud AUD Westpac Consumer Confidence Medium 0.3% NaN -0.7% […]

Возврат двух значений из pandas.rolling_apply

Я использую pandas.rolling_apply чтобы pandas.rolling_apply данные с дистрибутивом и получать от него значение, но мне также нужно сообщить о хорошем качестве (в частности, p-значение). В настоящее время я делаю это так: def func(sample): fit = genextreme.fit(sample) return genextreme.isf(0.9, *fit) def p_value(sample): fit = genextreme.fit(sample) return kstest(sample, 'genextreme', fit)[1] values = pd.rolling_apply(data, 30, func) p_values = […]

Вычисление вычитаний пар столбцов в пандах DataFrame

Я работаю со значительным размером (48K строк, до десятков столбцов) DataFrames. В какой-то момент их манипулирования мне нужно сделать двоякие вычитания значений столбцов, и мне было интересно, есть ли более эффективный способ сделать это, а не тот, который я делаю (см. Ниже). Мой текущий код: # Matrix is the pandas DataFrame containing all the data […]

использование pandas для анализа раздела внутри документа JSON

Я пытаюсь проанализировать использование моего электронного счета (почасовые данные, загруженные в формате JSON! Woot!) С помощью pandas. Я могу это сделать, но это klunkier, чем я ожидал: import pandas as pd import json with open('test1.json') as f: j = json.load(f) j2 = j['DailyBillingUsage']['RegisterCollections']['Channel'] s = json.dumps(j2) d = pd.read_json(s, convert_dates='ReadDate') d.ReadDate = pd.to_datetime(d.ReadDate) Я ожидал, […]

Эффективное уменьшение функции в кадре данных pandas

У меня большой набор данных около 200 тыс. Образцов. каждый образец имеет набор признаков (около 10) из множества около 100 тыс. возможных возможностей и несколько измерений с плавающим типом. Например, для данного набора данных Features trial observations {1, 40020, 8222} 4 2 {1, 40020, 22, 16000} 14 8 {1, 20, 22, 1000} 1 0 {42, […]

Запись pandas DataFrame в csv-файл с несколькими пустыми строками

Я создаю одноклассовый панд DataFrame, содержащий только строки. Один ряд пуст. Когда я пишу файл на диске, пустая строка получает пустую цитату «», в то время как я вообще не хочу цитаты. Вот как реплицировать проблему: import pandas as pd df = "Name=Test\n\n[Actual Values]\nLength=12\n" df = pd.DataFrame(df.split("\n")) df.to_csv("C:/Users/Max/Desktop/Test.txt", header=False, index=False) Выходной файл должен быть следующим: […]

Как переместить дату и время на конец дня, недели или часа

Вот код, который перемещается все время до конца месяца: import numpy as np import pandas as pd times = np.array([ '2013-07-22T02:10:32.000000000+0900', '2013-07-22T01:11:13.000000000+0900', '2013-07-21T23:23:32.000000000+0900', '2013-07-21T05:59:21.000000000+0900', '2013-07-21T05:57:30.000000000+0900', '2013-07-21T05:44:27.000000000+0900', '2013-07-20T10:45:17.000000000+0900', '2013-07-20T10:36:53.000000000+0900', '2013-07-20T09:57:46.000000000+0900', '2013-07-20T09:57:06.000000000+0900', '2013-07-20T09:30:57.000000000+0900', '2013-07-20T08:20:27.000000000+0900',], dtype='datetime64[ns]') dti = pd.DatetimeIndex(times) dti.shift(1, "M").values Результат: array(['2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900', '2013-07-31T09:00:00.000000000+0900'], dtype='datetime64[ns]') но как двигаться […]

слияние в пандах против слияния в R

Боюсь, я не совсем понимаю возможности слияния панд, хотя сейчас я предпочитаю python над R. В R я всегда мог с легкостью объединить данные-кадры следующим образом: > merge(test,e2s, all.x=T) Gene Mutation Chromosome Entrez 1 AGRN p.R451H chr1 375790 2 C1orf170 p.V663A/V683A chr1 84808 3 HES4 p.R44S chr1 57801 4 ISG15 p.S83N chr1 9636 5 PLEKHN1 […]

Получить панды на Android

Я пытаюсь написать некоторые скрипты для запуска на моем устройстве Android. В моем кодировании на Python я очень много полагался на панды для организации моих данных. Я любопытно, как я могу получить панды на моем телефоне Android. В моих запросах Google я столкнулся с python-for-android , которые кажутся релевантными, но я не понимаю, как я […]

Найти первый раз, когда значение происходит в кадре данных

У меня есть дата-кадр с кварталом (например, 2015-Q4), customer_ID и зарегистрированная сумма, и многие другие столбцы на данный момент неактуальны. Я хочу создать столбец, в который каждый клиент совершил бронирование. Я попробовал это: alldata.sort_values(by=['Total_Apps_Reseller_Bookings_USD', 'Year_Quarter'], ascending=[1, 1], inplace=True) first_q = alldata[['Customer_ID', 'Year_Quarter']].groupby(by='Customer_ID').first() но я не уверен, что это сработало. Кроме того, я тогда хочу иметь […]

Python - лучший язык программирования в мире.