Tag: pandas

Применить функцию ко второму столбцу в pandas dataframe groupby

В кадре данных pandas функцию можно использовать для группировки своего индекса. Я ищу для определения функции, которая вместо этого применяется к столбцу. Я ищу группу по двум столбцам, за исключением того, что мне нужен второй столбец, который будет сгруппирован по произвольной функции, foo : group_sum = df.groupby(['name', foo])['tickets'].sum() Как определить foo для группировки второго столбца […]

Поддерживает ли Панды ежеквартальные даты формы yyyyQp (например, 2013Q2)?

Я импортирую CSV макроэкономических данных и не смог понять, как заставить Pandas интерпретировать этот тип даты. Есть ли способ сделать это автоматически или мне нужно самому разобрать его? Когда я прошу парсер попробовать, я получаю: File "datetime.pxd", line 133, in datetime._string_to_dts (pandas/tslib.c:31399)ValueError: Unable to parse 2002Q1

В pandas, почему tz_convert изменяет часовой пояс, используемый от EST до LMT?

В сценарии ниже: Почему tz и tz2 отличаются? import pandas import pytz tz = pytz.timezone('US/Eastern') t = pandas.Timestamp('2014-03-03 08:05:39.216809') tz2 = t.tz_localize(pytz.UTC).tz_convert(tz).tz В этом случае tz отображается как: <DstTzInfo 'US/Eastern' LMT-1 day, 19:04:00 STD> Но tz2 отображается как: <DstTzInfo 'US/Eastern' EST-1 day, 19:00:00 STD> Разве панды не соблюдают часовой пояс, я перехожу к tz_convert ? […]

В какой ситуации я могу использовать Dask вместо Apache Spark?

В настоящее время я использую Pandas и Spark для анализа данных. Я обнаружил, что Dask предоставляет параллельный массив NumPy и Pandas DataFrame. Панды легко и интуитивно понятны для анализа данных в Python. Но мне трудно справляться с несколькими большими кадрами данных в Pandas из-за ограниченной системной памяти. Простой ответ: Apache Spark – это комплексная инфраструктура, […]

Получить количество строк до и после определенного значения индекса в пандах

Скажем, у меня есть следующее: In [1]: import pandas as pd import numpy as np df = pd.DataFrame(data=np.random.rand(11),index=pd.date_range('2015-04-20','2015-04-30'),columns=['A']) Out[1]: A 2015-04-20 0.694983 2015-04-21 0.393851 2015-04-22 0.690138 2015-04-23 0.674222 2015-04-24 0.763175 2015-04-25 0.761917 2015-04-26 0.999274 2015-04-27 0.907871 2015-04-28 0.464818 2015-04-29 0.005733 2015-04-30 0.806351 У меня есть сложный метод, который идентифицирует один индекс как интересный, например, «2015-04-25». […]

Условное удаление дубликатов pandas python

Есть ли способ условно удалить дубликаты (используя drop_duplicates конкретно) в кадре данных pandas с примерно 10 столбцами и 400 000 строк? То есть, я хочу сохранить все строки, которые имеют 2 столбца, удовлетворяют условию: если комбинация даты (столбца) и хранилища (столбца) # уникальна, сохраните строку, другую мудрую, нажмите.

Pandas: подсчет уникальных значений в кадре данных

У нас есть DataFrame, который выглядит так: > df.ix[:2,:10] 0 1 2 3 4 5 6 7 8 9 10 0 NaN NaN NaN NaN 6 5 NaN NaN 4 NaN 5 1 NaN NaN NaN NaN 8 NaN NaN 7 NaN NaN 5 2 NaN NaN NaN NaN NaN 1 NaN NaN NaN NaN […]

Как правильно пометить поврежденные datalines в dataframe после того, как ошибка возникла в Python

У меня есть большой фреймворк, содержащий, среди прочего, (норвежский) номер социального страхования. Из этого числа можно получить дату рождения с помощью специального алгоритма. Однако время от времени незаконный номер социального обеспечения проникает в базу данных, искажая вычисления. То, что я хотел бы сделать, – пометить каждую строку с незаконным номером социального обеспечения вместе с сообщением […]

Сохранение порядка столбцов – Python Pandas и Column Concat

Поэтому мой google-fu, похоже, не делает мне справедливости с тем, что кажется тривиальной процедурой. В Pandas для Python у меня есть 2 набора данных, я хочу объединить их. Это отлично работает с использованием .concat. Проблема в том, что .concat переупорядочивает мои столбцы. С точки зрения поиска данных это тривиально. Из «Я просто хочу открыть файл […]

Создание нескольких столбцов в функции агрегации pandas

Я хотел бы создать несколько столбцов при повторной выборке pandas DataFrame, как встроенный метод ohlc. def mhl(data): return pandas.Series([np.mean(data),np.max(data),np.min(data)],index = ['mean','high','low']) ts.resample('30Min',how=mhl) Умирает с Exception: Must produce aggregated value Какие-либо предложения? Благодаря!

Python - лучший язык программирования в мире.