Tag: pandas

Работа с значениями None при использовании Pandas Groupby и Apply с функцией

У меня есть Dataframe в Pandas с буквой и двумя датами в виде столбцов. Я хотел бы рассчитать рабочие дни между двумя столбцами даты для предыдущей строки, используя shift() , при условии, что значение Letter одинаково (с использованием .groupby() ). Я делал это с помощью .apply() . Это сработало, пока я не передал некоторые данные, […]

Повторная выборка в пандах

Я задал вопрос о другом потоке Link . Но я получил неполный ответ. И никто не хочет отвечать. Вот почему я задаю еще один измененный вопрос. Позвольте мне коротко объяснить этот вопрос, я хотел бы переделать следующие данные: **` Timestamp L_x L_y L_a R_x R_y R_a 2403950 621.3 461.3 313 623.3 461.8 260 2403954 622.5 […]

Частоты подсчета Pandas в пределах ряда str

Учитывая серию Pandas типа str, я хочу получить частоты результата, возвращаемого str.split. Например, учитывая серию s = pd.Series(['abc,def,ghi','ghi,abc']) Я хотел бы получить abc: 2 def: 1 ghi: 2 в результате. Как я могу это получить? Изменить: решение должно эффективно работать с большой серией из 50 миллионов строк.

Уникальный идентификатор нулевой точки для значений в пандах

У меня есть данные в DataFrame с столбцом идентификатора. data = DataFrame({'id' : [50,50,30,10,50,50,30]}) Для каждого уникального идентификатора я хочу создать новый уникальный идентификатор. Я хотел бы, чтобы идентификаторы были последовательными целыми числами начиная с 0. Вот что я до сих пор: unique = data[['id']].drop_duplicates() unique['group'] = np.arange(len(unique)) unique.set_index('id') data = data.merge(unique, 'inner', on = […]

как удалить избыточное время даты, когда ось x является недержанием pandas DatetimeIndex

Я хочу построить серию pandas, индекс которой не имеет значения DatatimeIndex. Мой код выглядит следующим образом: import matplotlib.dates as mdates index = pd.DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 00:01:00', '2000-01-01 00:02:00', '2000-01-01 00:03:00', '2000-01-01 00:07:00', '2000-01-01 00:08:00'], dtype='datetime64[ns]') df = pd.Series(range(6), index=index) print(df) plt.plot(df.index, df.values) plt.gca().xaxis.set_major_formatter(mdates.DateFormatter("%M")) plt.show() Выход: Но результат не то, что я действительно хочу, потому что […]

Прочитайте запрос Teradata в Pandas

Кто-нибудь нашел способ прочитать запрос Teradata в кадре данных Pandas? Похоже, SQLAlchemy не имеет диалекта Teradata. http://docs.sqlalchemy.org/en/latest/dialects/ http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html

Разбивка колонн группами в Пандах

Если у меня есть DataFrame, вот так: type value group a 10 one b 45 one a 224 two b 119 two a 33 three b 44 three как мне это сделать: type one two three a 10 224 33 b 45 119 44 Я думал, что это будет pivot_table , но это просто дает […]

pandas заменяет (стирает) разные символы из строк

У меня есть список средних школ. Я хотел бы удалить определенные символы, слова и символы из строк. В настоящее время у меня есть: df['schoolname'] = df['schoolname'].str.replace('high', "") Тем не менее, я хотел бы использовать список, чтобы быстро заменить high , school , / т. Д. Какие-либо предложения? df['schoolname'] = df['schoolname'].str.replace(['high', 'school'], "") не работает

Как я могу загрузить фрейм данных, сохраненный в pandas, в виде файла HDF5 в R без потери целых чисел более 32 бит?

Я получаю это предупреждение, когда пытаюсь загрузить фрейм данных, сохраненный в pandas, как файл HDF5 в R: Предупреждающее сообщение: В H5Dread (h5dataset = h5dataset, h5spaceFile = h5spaceFile, h5spaceMem = h5spaceMem,: NA, которые производятся путем переполнения целого числа при преобразовании 64-битного целого или беззнакового 32-битного целого из HDF5 в 32-разрядное целое число в R. Выберите bit64conversion […]

Функция качания python pandas с двумя аргументами

Любовь моего новичка к python проходит тяжелый процесс … Мне нужно вычислить функцию в скользящем окне фиксированной длины (скажем: 5). Функция требует двух параметров. Я хорошо знаю ответ здесь, который почти идентичен, но я продолжаю получать ошибки. Мой код прост: import numpy as np import pandas as pd import scipy as sp import scipy.stats df […]

Python - лучший язык программирования в мире.