Tag: pandas

Получить ненулевые элементы в pandas DataFrame

У меня есть DataFrame и я хочу получить некоторые ненулевые элементы в виде списка. В частности, данный df : df = pd.DataFrame({"a":["A",None,"B"],"b":[None,"C","D"],"c":["E","F",None]}) abc 0 A None E 1 None CF 2 BD None и список интересных столбцов ["a","c"] , я хочу извлечь список элементов None из указанных столбцов, т. е. ["A","B","E","F"] Думаю, я могу [value […]

Получить метки строк и столбцов для выбранных значений в кадре данных Pandas

Я хотел бы получить метки строк и столбцов для значений, соответствующих некоторому условию в фреймворке данных. Чтобы это было интересно, мне нужно, чтобы он работал с иерархическим (многострочным) индексом. Например: df = pd.DataFrame(np.arange(16).reshape(4, 4), columns=pd.MultiIndex.from_product((('a', 'b'), ('x', 'y')))) abxyxy 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 3 […]

список запросов pandas по списку

У меня есть кадр данных pandas и вы хотите вернуть строки из фрейма данных, соответствующие идентификаторам клиентов, которые отображаются в списке целевых идентификаторов. Например, если мой фрейм данных выглядит так: id Name … … ————————- 1 Bob … … 2 Dave … … 2 Dave … … 3 Phil … … 4 Rick … … […]

Ключевая ошибка & Pandas

Я написал сценарий Python (ниже), который загружает данные из текстового файла (используя pandas ) и проверяет значения в столбцах. import sys import pandas as pd import numpy as np from numpy import ndarray import math import matplotlib.pyplot as plt from matplotlib.pyplot import * from skimage import data from skimage.feature import match_template if __name__ == '__main__': […]

Как я могу вставить строку в фреймворк данных, сохраняя числовой порядок индексов строк?

Я работаю с фреймворком данных с машины, которая сэмплирует каждые 2 миллисекунды, поэтому все индексы строк были переиндексированы на отметки времени машины. Существуют определенные события TTL, которые могут выполняться с любым интервалом с точностью до милисекунды, поэтому возможно, что TTL может возникать при нечетном числе миллисекунд. Чтобы имитировать это, я создал следующий DataFrame: import pandas […]

Почему pandas xs не падает, даже если drop_level = True

df = pd.DataFrame({'a':np.append(np.random.randint(0,10,10000), -1), 'b':np.append(np.random.randint(0,10,10000), -1), 'c':np.append(np.random.randint(0,10,10000), -1), 'value':np.random.randint(0,100,10001)}) dfi = df.set_index(['a','b','c']) dfi.sortlevel(inplace = True) dfi.xs((2,1,7), drop_level=True) value time abc 2 1 7 33 1970-01-01 00:00:00.000000033 7 70 1970-01-01 00:00:00.000000070 7 75 1970-01-01 00:00:00.000000075 7 53 1970-01-01 00:00:00.000000053 7 28 1970-01-01 00:00:00.000000028 7 21 1970-01-01 00:00:00.000000021 7 36 1970-01-01 00:00:00.000000036 7 43 1970-01-01 00:00:00.000000043 7 […]

pandas применить фильтр для булевых типов

Это типы для моего DataFrame; count int64 word object cat1 bool cat2 object cat3 bool dtype: object Как сделать фильтр для булевых значений из 'cat1' и 'cat2'? Что-то вроде… data[(data['cat1'].bool() == FALSE) & (data['cat3'].bool() == FALSE)]

Медиана списка с значениями NaN удалена, в python

Можно ли вычислить медиану списка без явного удаления NaN, а скорее, игнорируя их? Я хочу, чтобы median([1,2,3,NaN,NaN,NaN,NaN,NaN,NaN]) составлял 2, а не NaN.

Добавить новый столбец на основе булевых значений в другом столбце

Я пытаюсь добавить новый столбец в DataFrame на основе булевых значений в другом столбце. Учитывая DataFrame следующим образом: snr = DataFrame({ 'name': ['A', 'B', 'C', 'D', 'E'], 'seniority': [False, False, False, True, False] }) Самое дальнее, что я зашел так далеко, это: def refine_seniority(contact): contact['refined_seniority'] = 'Senior' if contact['seniority'] else 'Non-Senior' snr.apply(refine_seniority) но я получаю […]

Потеря времени в использовании зоны безопасности при сохранении гиаррхических панд DatetimeIndex для hdf5 в Python

Я на пандах 0.14.1. Предположим, мне нужно индексировать данные по двум временным меткам в иерархическом индексе с использованием часовых поясов. Сохраняя приведенный DataFrame в hdf5, я, кажется, теряю осведомленность о часовом поясе: import pandas as pd dti1 = pd.DatetimeIndex(start=pd.Timestamp('20000101'), end=pd.Timestamp('20000102'), freq='D', tz='EST5EDT') dti2 = pd.DatetimeIndex(start=pd.Timestamp('20000102'), end=pd.Timestamp('20000103'), freq='D', tz='EST5EDT') mux = pd.MultiIndex.from_arrays([dti1, dti2]) df = pd.DataFrame(0, […]

Python - лучший язык программирования в мире.