Tag: pandas

Самый быстрый способ запроса кадра данных

Я хочу сделать операции агрегации (суммы) в строках большого кадра данных панд (миллионы строк), которые определяются условием на нескольких фиксированных столбцах (не более 10 столбцов). Эти столбцы имеют только целые значения. Моя проблема в том, что я должен выполнить эту операцию (запрос + агрегация) тысячи раз (~ 100 000 раз). Я думаю, что с агрегационной […]

ряды в группе в пандах

У меня типичные «данные панели» (в эконометрических терминах, а не в панельном объекте панды). В кадре данных есть столбец « Date столбец « ID и другие столбцы, которые содержат определенные значения. Для каждой Даты мне нужно rank_col по идентификаторам на основе V1 на 10 групп (децили) и создать новый столбец с именем rank_col (принимать значения […]

Добавьте один месяц к указанной дате (округленный день после) с помощью Python

Я хотел бы добавить один месяц на определенную дату import datetime dt = datetime.datetime(year=2014, month=5, day=2) поэтому я должен получить datetime.datetime(year=2014, month=6, day=2) но с dt = datetime.datetime(year=2015, month=1, day=31) Я должен получить datetime.datetime(year=2015, month=3, day=1) потому что нет 2015-02-31 (и я хочу, чтобы мой результат был на следующий день после ) Некоторые месяцы имеют […]

Как Pandas DataFrames выглядят одинаково, но fail equals ()?

Чтобы подтвердить, что я понимаю, что df.groupby() Pandas df.groupby() и df.reset_index() , я попытался выполнить df.reset_index() путь из фрейма данных в сгруппированную версию тех же данных и обратно. После раунда колонны и строки нужно было отсортировать снова, потому что groupby() влияет на порядок строк и reset_index() влияет на порядок столбцов, но после двух быстрых маневров, […]

Matplotlib DateFormatter для метки оси не работает

Я пытаюсь настроить форматирование ярлыков метки даты по оси X, чтобы они отображали только значения Год и Месяц. Из того, что я нашел в Интернете, мне нужно использовать mdates.DateFormatter , но он не вступает в силу с моим текущим кодом, как есть. Кто-нибудь видит, где проблема? (датами являются индекс панда данных) import matplotlib.dates as mdates […]

DataFrame.interpolate () экстраполирует данные за отсутствующие данные

Рассмотрим следующий пример, в котором мы устанавливаем образец набора данных, создаем MultiIndex, стягиваем фрейм данных и выполняем линейную интерполяцию, где мы заполняем строку за строкой: import pandas as pd # version 0.14.1 import numpy as np # version 1.8.1 df = pd.DataFrame({'location': ['a', 'b'] * 5, 'trees': ['oaks', 'maples'] * 5, 'year': range(2000, 2005) * […]

Панды – не сортировать по дубликатному столбцу

Когда я сортирую один из своих dataframes, например: my_df.sort(['column_A', 'column_B']) Я получил: ValueError: Cannot sort by duplicate column ['A', 'B'] У столбцов разные данные и разные имена. Вот полная ошибка: /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/core/frame.pyc in sort(self, columns, column, axis, ascending, inplace) 2534 columns = column 2535 return self.sort_index(by=columns, axis=axis, ascending=ascending, -> 2536 inplace=inplace) 2537 2538 def sort_index(self, axis=0, […]

Python Pandas: как пропускать столбцы при чтении файла?

У меня таблица форматирована следующим образом: foo – bar – 10 2e-5 0.0 some information quz – baz – 4 1e-2 1 some other description in here Когда я открываю его с помощью панд: a = pd.read_table("file", header=None, sep=" ") Это говорит мне: CParserError: Error tokenizing data. C error: Expected 9 fields in line 2, […]

проблема преобразования python pandas DataFrame в R dataframe для использования с rpy2

У меня возникли проблемы с преобразованием pandas DataFrame в Python в объект R, для будущего использования в R с помощью rpy2. В новом выпуске pandas 0.8.0 (выпущенном несколько недель назад) есть функция для преобразования Pandas DataFrames в R DataFrames. Проблема заключается в преобразовании первого столбца моих панд DataFrame, который состоит из объектов datetime python (последовательно, […]

Нарезка рядов Pandas с медленным знаком строки

Я в основном хочу узнать более быстрый способ срезать кадр данных Pandas с условным разрезом на основе регулярного выражения. Например, следующий df (в строке string_column имеется более 4 вариантов, они предназначены только для иллюстративных целей): index, string_col1, string_col2, value 0, 'apple', 'this', 10 1, 'pen', 'is', 123 2, 'pineapple', 'sparta', 20 3, 'pen pineapple apple […]

Python - лучший язык программирования в мире.