Tag: dataframe

Добавление моего собственного атрибута описания в Pandas DataFrame

Я извлекаю некоторые веб-данные, разбираю их и сохраняю вывод в виде файла Pandas DataFrame в файл HDF5. Прямо перед тем, как я напишу DataFrame в файл H5, я добавлю свою собственную строку описания, чтобы аннотировать некоторые метаданные о том, откуда пришли данные, и было ли что-то пошло не так во время его разбора. In [1]: […]

Почему использование многопроцессорности с применением панд приводит к такому резкому ускорению?

Предположим, у меня есть фрейм данных pandas и функция, которую я хотел бы применить к каждой строке. Я могу вызвать df.apply(apply_fn, axis=1) , который должен занимать время линейное по размеру df . Или я могу разделить df и использовать pool.map для вызова моей функции на каждую часть, а затем объединить результаты. Я ожидал, что коэффициент […]

Объединение Pandas DataFrames на основе комбинации индекса / столбца

У меня есть два DataFrames, которые я хочу объединить . Я читал о слиянии нескольких столбцов и сохранении индекса при слиянии . Моя проблема должна удовлетворять обоим, и мне трудно понять, как это сделать. Первый DataFrame выглядит так: а вторая выглядит так Я хочу объединить их на основе Date и ID . В первом DataFrame […]

Как обменивать индекс и значения в кадре данных pandas

У меня есть некоторые данные, в которых индекс является порогом, а значения представляют собой trns (истинные отрицательные ставки) для двух классов: 0 и 1. Я хочу получить dataframe, проиндексированный tnr, порога, который соответствует этому tnr, для каждого класса. По сути, я хочу: Я могу добиться этого эффекта, используя следующее: pd.concat([pd.Series(data[0].index.values, index=data[0]), pd.Series(data[1].index.values, index=data[1])], axis=1) Или, […]

Как заменить df.ix на df.loc или df.iloc?

Учитывая наступление устаревших df.ix […] Как я могу заменить .ix в этом фрагменте кода? df_1 = df.ix[:, :datetime.time(16, 50)] df_2 = df.ix[:, datetime.time(17, 0) : ] df_3 = df2.shift(periods = 1) df_4 = pd.concat([df3, df1], axis = 1) Для справки, это некоторый фон на этом фрагменте кода

Преобразование pandas.DataFrame в байты

Мне нужно преобразовать данные, хранящиеся в pandas.DataFrame в строку байтов, где каждый столбец может иметь отдельный тип данных (целочисленный или с плавающей запятой). Вот простой набор данных: df = pd.DataFrame([ 10, 15, 20], dtype='u1', columns=['a']) df['b'] = np.array([np.iinfo('u8').max, 230498234019, 32094812309], dtype='u8') df['c'] = np.array([1.324e10, 3.14159, 234.1341], dtype='f8') и df выглядит примерно так: abc 0 10 […]

Как объединить два DataFrames в одно совпадение значений столбца

Два DataFrames имеют соответствующие значения, хранящиеся в соответствующих столбцах «имена» и «полеты». В то время как первый DataFrame сохраняет расстояния, другой сохраняет даты: import pandas as pd distances = {'names': ['A', 'B','C'] ,'distances':[100, 200, 300]} dates = {'flights': ['C', 'B', 'A'] ,'dates':['1/1/16', '1/2/16', '1/3/16']} distancesDF = pd.DataFrame(distances) datesDF = pd.DataFrame(dates) distancesDF: distances names 0 100 […]

Как выбрать значения между строками и местом в столбце фрейма данных с использованием регулярного выражения в python

У меня есть большой фреймворк данных, содержащий столбец «Комментарий», в разделе комментариев мне нужно вытащить 3 значения и поместить их в отдельные столбцы, т. е. (рабочий цикл, газ и давление) «Сбор данных СТАРТ для рабочего цикла: 0 , Газ: Давление вакуума : 0,000028 Торр» В настоящее время я использую .split и .tolist для синтаксического анализа […]

Pandas устанавливает мультииндекс на столбцах

Если у меня есть простой фреймворк данных: print(a) one two three 0 A 1 a 1 A 2 b 2 B 1 c 3 B 2 d 4 C 1 e 5 C 2 f Я могу легко создать мультииндекс по строкам, выпустив: a.set_index(['one', 'two']) three one two A 1 a 2 b B 1 […]

XML для pandas dataframe

У меня есть XML-файл с тысячами строк, таких как: <Word x1="206" y1="120" x2="214" y2="144" font="Times-Roman" style="font-size:22pt">WORD</Word> Я хочу преобразовать его (все его атрибуты) в pandas dataframe . Для этого я мог бы прокручивать файл с помощью красивого супа и вставлять значения по строкам или создавать списки, которые нужно вставлять в виде столбцов. Однако я хотел […]

Python - лучший язык программирования в мире.