Tag: pandas

Pandas изменяет значения столбцов на месте на основе логического массива

Я знаю, как создать новый столбец с apply или np.where на основе значений другого столбца, но способ выборочного изменения значений существующего столбца ускользает от меня; Я подозреваю, что df.ix участвует? Я близко? Например, вот простой dataframe (у меня есть десятки тысяч строк). Я хотел бы изменить значение в столбце «flag» (скажем, «Синий»), если имя заканчивается […]

конвертировать дату и время SAS в Pandas

Я использую Pandas для чтения набора данных Sas, используя read_sas В наборе данных SAS имеется переменная datetime, которая появляется в Pandas как: 1.775376e+09 Как только я конвертирую его в str введите: 1775376002.0 Соответствующая дата в SAS (не в моем наборе данных Pandas) представляется DATETIME21.2 04APR2016:08:00:02.00 Я попытался преобразовать его, используя pd.to_datetime(df.mysasdate,format='%d%m%Y%H%M%S') без успеха TypeError: 'float' […]

Построение корреляционных тепловых карт с помощью Seaborn FacetGrid

Я пытаюсь создать единое изображение с тепловыми картами, представляющими соотношение характеристик точек данных для каждой метки отдельно. С морским садом я могу создать тепловую карту для одного класса, например, так grouped = df.groupby('target') sns.heatmap(grouped.get_group('Class_1').corr()) Я получаю это, что имеет смысл: Но затем я пытаюсь составить список всех ярлыков: g = sns.FacetGrid(df, col='target') g.map(lambda grp: sns.heatmap(grp.corr())) […]

Ошибка установки Pandas для Python в Mac OS X

Я хочу установить панды для использования в Python У меня есть последняя версия xcode и инструмента командной строки, pip, easy_install, но установка этого продолжает давать мне следующую ошибку, любой может помочь? sudo easy_install pandas > Best match: pandas 0.13.1 >Downloading https://pypi.python.org/packages/source/p/pandas/pandas-0.13.1.zip#md5=50e4902238dd5312c20c1c85fb024bb6 >Processing pandas-0.13.1.zip >Running pandas-0.13.1/setup.py -q bdist_egg –dist-dir /tmp/easy_install-oU7Yfm/pandas-0.13.1/egg-dist-tmp-I4Mw_P >warning: no files found matching 'README.rst' […]

Изменение временных меток в пандах, чтобы сделать индекс уникальным

Я работаю с финансовыми данными, которые регистрируются с нерегулярными интервалами. Некоторые временные метки являются дубликатами, что делает анализ сложным. Это пример данных – отметьте четыре метки времени: 2016-08-23 00:00:17.664193 : In [167]: ts Out[168]: last last_sz bid ask datetime 2016-08-23 00:00:14.161128 2170.75 1 2170.75 2171.00 2016-08-23 00:00:14.901180 2171.00 1 2170.75 2171.00 2016-08-23 00:00:17.196639 2170.75 1 […]

Эффективное вычисление VWAP Pandas

У меня есть код ниже, с помощью которого я могу рассчитать средневзвешенную по объему цену тремя строками кода Pandas. import numpy as np import pandas as pd from pandas.io.data import DataReader import datetime as dt df = DataReader(['AAPL'], 'yahoo', dt.datetime(2013, 12, 30), dt.datetime(2014, 12, 30)) df['Cum_Vol'] = df['Volume'].cumsum() df['Cum_Vol_Price'] = (df['Volume'] * (df['High'] + df['Low'] […]

Каков наилучший способ суммировать все значения в кадре данных Pandas?

Я выяснил эти два метода. Есть ли лучший? >>> import pandas as pd >>> df = pd.DataFrame({'A': [5, 6, 7], 'B': [7, 8, 9]}) >>> print df.sum().sum() 42 >>> print df.values.sum() 42 Просто хочу убедиться, что я не пропущу что-то более очевидное.

Прочтите файл csv со многими именованными метками столбцов с помощью pandas

Я новичок в pandas для python. У меня есть файл данных с несколькими ярлыками строк (в каждой строке) и метками столбцов (за столбец), как и следующие данные подсчетов наблюдений для трех разных животных (собака, летучая мышь, страус) при многократном времени записи (понедельник, день, ночь ): '' , '' , colLabel:name , dog , bat , […]

Как подсчитать все положительные и отрицательные значения в группе панд?

Предположим, у нас есть таблица: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C' : np.random.randn(8), 'D' : np.random.randn(8)}) Вывод: ABCD 0 foo one -1.304026 0.237045 1 bar one 0.030488 -0.672931 2 foo two 0.530976 -0.669559 3 bar three -0.004624 -1.604039 […]

Получить последние 10000 строк csv-файла

В pandas я могу просто использовать pandas.io.parser.read_csv("file.csv", nrows=10000) чтобы получить первые 10000 строк csv-файла. Но поскольку мой файл csv огромен, а последние строки более актуальны, чем первые, я бы хотел прочитать последние 10000 строк. Тем не менее, это не так просто, даже если я знаю длину файла, потому что если я пропущу первые 990000 строк […]

Python - лучший язык программирования в мире.