Tag: pandas

Pandas Set DatetimeIndex

Скажем, я создаю pandas DataFrame с двумя столбцами, b (DateTime) и c (целое число). Теперь я хочу сделать DatetimeIndex из значений в первом столбце ( b ): import pandas as pd import datetime as dt a=[1371215423523845, 1371215500149460, 1371215500273673, 1371215500296504, 1371215515568529, 1371215531603530, 1371215576463339, 1371215579939113, 1371215731215054, 1371215756231343, 1371215756417484, 1371215756519690, 1371215756551645, 1371215756578979, 1371215770164647, 1371215820891387, 1371215821305584, 1371215824925723, 1371215878061146, 1371215878173401, […]

Выбор и удаление столбцов с таким же именем в pandas DataFrame

У меня огромный DataFrame , где некоторые столбцы имеют одинаковые имена. Когда я пытаюсь выбрать столбец, который существует дважды (например, del df['col name'] или df2=df['col name'] ), я получаю сообщение об ошибке. Что я могу сделать?

Как прочитать файл Parquet в Pandas DataFrame?

Как прочитать набор данных Parquet с минимальным размером в Pandas DataFrame в памяти без настройки инфраструктуры кластерной инфраструктуры, такой как Hadoop или Spark? Это всего лишь умеренное количество данных, которые я хотел бы прочитать в памяти с помощью простого сценария Python на ноутбуке. Данные не находятся на HDFS. Это либо в локальной файловой системе, либо, […]

Абсолютное значение для столбца в Python

Как преобразовать значения столбца «count» в абсолютное значение? Сводка моего блока данных: datetime count 0 2011-01-20 00:00:00 14.565996 1 2011-01-20 01:00:00 10.204177 2 2011-01-20 02:00:00 -1.261569 3 2011-01-20 03:00:00 1.938322 4 2011-01-20 04:00:00 1.938322 5 2011-01-20 05:00:00 -5.963259 6 2011-01-20 06:00:00 73.711525

Fillna в нескольких столбцах на месте в Python Pandas

У меня есть pandas dataFrame смешанных типов, некоторые – строки, а некоторые – числа. Я хотел бы заменить значения NAN в строковых столбцах на «.» И значения NAN в столбцах float на 0. Рассмотрим этот небольшой фиктивный пример: df = pd.DataFrame({'Name':['Jack','Sue',pd.np.nan,'Bob','Alice','John'], 'A': [1, 2.1, pd.np.nan, 4.7, 5.6, 6.8], 'B': [.25, pd.np.nan, pd.np.nan, 4, 12.2, 14.4], […]

получение секунд от numpy timedelta64

У меня есть индекс datetime в пандах index = np.array(['2013-11-11T12:36:00.078757888-0800', '2013-11-11T12:36:03.692692992-0800', '2013-11-11T12:36:07.085489920-0800', '2013-11-11T12:36:08.957488128-0800'], dtype='datetime64[ns]') Я хочу рассчитать разницу во времени в секундах. То, как я придумал, это: diff(index).astype('float64')/1e9 есть ли лучший / более чистый способ?

эквивалент R's View для панд Python

View – очень полезная функция, позволяющая видеть поперечное сечение больших кадров данных в R. Есть ли какой-либо эквивалент функции просмотра R для DataFrame pandas DataFrame ? Я использую RStudio для R и PyCharm для Python.

Как правильно добавить часы к pandas.tseries.index.DatetimeIndex?

У меня нормальный df.index, который я хотел бы добавить к нему несколько часов. In [1]: test[1].index Out[2]: <class 'pandas.tseries.index.DatetimeIndex'> [2010-03-11, …, 2014-08-14] Length: 52, Freq: None, Timezone: None Вот как выглядит первый элемент: In [1]: test[1].index[0] Out[2]: Timestamp('2010-03-11 00:00:00') Поэтому я стараюсь добавить часы: In [1]: test[1].index[0] + pd.tseries.timedeltas.to_timedelta(16, unit='h') Однако я получаю следующее: Out[2]: […]

Pandas 'describe' не возвращает резюме всех столбцов

Я запускаю 'describe ()' в dataframe и получаю резюме только int-столбцов (pandas 14.0). В документации указано, что для столбцов столбцов частота наиболее распространенного значения и дополнительная статистика будут возвращены. Что может быть неправильным? (кстати, сообщение об ошибке не возвращается) Редактировать: Я думаю, что это так, как функция настроена на поведение в смешанных типах столбцов в […]

Многомерное масштабирование в Numpy, Pandas и Sklearn (ValueError)

Я пытаюсь многомерного масштабирования с помощью sklearn, pandas и numpy. В файле данных Im используется 10 числовых столбцов и отсутствуют пропущенные значения. Я пытаюсь взять эти десятимерные данные и визуализировать их в двух измерениях с помощью многомерного масштабирования sklearn.manifold следующим образом: import numpy as np import pandas as pd from sklearn import manifold from sklearn.metrics […]

Python - лучший язык программирования в мире.