Tag: pandas

Стандартная ошибка, игнорирующая NaN в группах групп pandas

У меня есть данные, загружаемые в фреймворк данных, который имеет мультииндекс для заголовков столбцов. В настоящее время я группирую данные по индексам столбцов, чтобы взять среднее число групп и вычислить 95% доверительные интервалы следующим образом: from pandas import * import pandas as pd from scipy import stats as st #Normalize to starting point then convert […]

Получить количественные данные в пандах

У меня есть некоторые данные, которые выглядят примерно так: user timestamp value1 a 2007-01-01 7 a 2007-02-02 8 a 2007-02-03 9 b 2007-02-04 1 a 2007-02-05 2 b 2007-02-06 3 b 2007-02-07 4 a 2007-02-08 5 … где каждый пользователь имеет различное количество записей. Моя цель состоит в том, чтобы понять, насколько быстро эти записи […]

Расстояния между рейтингами

У меня есть два метода, которые ранжируют список строк по-разному и что мы можем считать «правильным» ранжированием списка (то есть золотым стандартом). Другими словами: ranked_list_of_strings_1 = method_1(list_of_strings) ranked_list_of_strings_2 = method_2(list_of_strings) correctly_ranked_list_of_strings # Some permutation of list_of_strings Как я могу определить, какой метод лучше, учитывая, что method_1 и method_2 являются черными ящиками? Существуют ли какие-либо методы […]

Разработка сборки панд, дающая импортеррор: расширение C: «hashtable» не построена на python 3.4 (anaconda)

Постарайтесь выполнить сборку разработки с помощью 3.4 (ранее управляемой в 2.7). Python – это просто установка anaconda на osx10.10. я могу получить Я: git cloned pandas запущен python setup.py build_ext –inplace (не получил ошибок) запущен python setup.py. Но когда я пытаюсь импортировать панды, я получаю: import pandas as pd Traceback (most recent call last): File […]

Почему печать фрейма данных прерывает python при построении из numpy empty_like

import numpy as np import pandas as pd рассмотрите массив numpy a a = np.array([None, None], dtype=object) print(a) [None None] И dfa dfa = pd.DataFrame(a) print(dfa) 0 0 None 1 None Теперь рассмотрим массив numpy b b = np.empty_like(a) print(b) [None None] Он выглядит так же, как (a == b).all() True ЭТО! УБИВАЕТ МОЙ ПИТОН! […]

Как конвертировать Pandas Dataframe в желаемый формат Json

start = datetime.datetime(2013, 1, 1) end = datetime.datetime(2013, 01, 27) f=web.get_data_yahoo('AAPL',start, end) f['Adj Close'].to_json(date_format='iso',orient='split') Вышеприведенный код дает следующий результат: Out[85]: '{"name":"Adj Close","index":["2013-01-02T00:00:00","2013-01-03T00:00:0 0","2013-01-04T00:00:00","2013-01-07T00:00:00","2013-01-08T00:00:00","2013-01-09 T00:00:00","2013-01-10T00:00:00","2013-01-11T00:00:00","2013-01-14T00:00:00","20 13-01-15T00:00:00","2013-01-16T00:00:00","2013-01-17T00:00:00","2013-01-18T00:00 :00","2013-01-22T00:00:00","2013-01-23T00:00:00","2013-01-24T00:00:00","2013-01- 25T00:00:00"],"data":[535.58,528.82,514.09,511.06,512.44,504.43,510.68,507.55,48 9.45,474.01,493.69,490.36,487.75,492.4,501.41,439.46,429.1]}' Я хочу: '[{"index":"2013-01-02T00:00:00",value:535.58},{"index":"2013-01-04T00:00:00",value:528.82},…]' Это возможно? Как мне обойти это?

Повторная выборка с пользовательскими периодами

Есть ли способ «поваренной книги» передискретизации DataFrame с (полу) нерегулярными периодами? У меня есть набор данных с ежедневным интервалом, и я хочу, чтобы он повторил, что иногда (в научной литературе) называется декад. Я не думаю, что для этого есть правильный английский термин, но в основном он измельчает месяц в трех-десятидневных частях, где третий – остаток […]

Добавьте столбец с группой по иерархической схеме данных

У меня есть структура данных, структурированная следующим образом: First AB Second bar baz foo bar baz foo Third cat dog cat dog cat dog cat dog cat dog cat dog 0 3 8 7 7 4 7 5 3 2 2 6 2 1 8 6 5 7 8 7 1 8 6 0 3 […]

Переиндексирование уровня MultiIndex в произвольный порядок в Pandas

У меня есть код, который суммирует DataFrame, содержащий знаменитый набор данных Titanic следующим образом: titanic['agecat'] = pd.cut(titanic.age, [0, 13, 20, 64, 100], labels=['child', 'adolescent', 'adult', 'senior']) titanic.groupby(['agecat', 'pclass','sex'] )['survived'].mean() Это создает следующий DataFrame с MultiIndex на основе groupby вызова: agecat pclass sex adolescent 1 female 1.000000 male 0.200000 2 female 0.923077 male 0.117647 3 female […]

Неожиданное 32-битное целочисленное переполнение в pandas / numpy int64 (python 3.6)

Позвольте мне начать с примера кода: import numpy from pandas import DataFrame a = DataFrame({"nums": [2233, -23160, -43608]}) a.nums = numpy.int64(a.nums) print(a.nums ** 2) print((a.nums ** 2).sum()) На моей локальной машине и других устройствах разработчики работают так, как ожидалось, и распечатывают: 0 4986289 1 536385600 2 1901657664 Name: nums, dtype: int64 2443029553 Однако на нашем […]

Python - лучший язык программирования в мире.