Tag: pandas

Присоединение к данным Pandas Dataframes по общим индексам

У меня есть 3 DataFrames которые имеют разное количество разделяемых индексов. Например: >>> df0=pd.DataFrame(index=pd.MultiIndex.from_product([[1,2,3,4],[2011,2012],['A','B']], names=['Season','Year','Location'])) >>> df0['Value0']=np.random.randint(1,100,len(df0)) >>> >>> df1=pd.DataFrame(index=pd.MultiIndex.from_product([[2011,2012],['A','B']], names=['Year','Location'])) >>> df1['Value1']=np.random.randint(1,100,len(df1)) >>> >>> df2=pd.DataFrame(index=['A','B']) >>> df2.index.name='Location' >>> df2['Value2']=np.random.randint(1,100,len(df2)) >>> df0 Value0 Season Year Location 1 2011 A 18 B 63 2012 A 88 B 30 2 2011 A 35 B 60 2012 A […]

pandas.DataFrame.rolling не работает с огромными поплавками

У меня ошибка при прокачке панд при использовании поплавок, близких к бесконечности. Здесь я приведу пример: import pandas as pd series = pd.Series(1.,index = pd.date_range('2015-01-01', periods=6)) series[series.index[2]] = 1e19 series 2015-01-01 1.000000e+00 2015-01-02 1.000000e+00 2015-01-03 1.000000e+19 2015-01-04 1.000000e+00 2015-01-05 1.000000e+00 2015-01-06 1.000000e+00 Freq: D, dtype: float64 series.rolling('2D', closed = 'left').mean() 2015-01-01 NaN 2015-01-02 1.000000e+00 2015-01-03 […]

Pandas DataFrame медленно показывает форму или типы

Я очень новичок в python и pandas . Любые рекомендации, комментарии и предложения оценены! Вот моя проблема: для возврата результата требуется несколько минут, после вызова df.shape или df.dtypes . DataFrame имеет 1 610 658 строк и 5 столбцов. Три столбца хранятся как int64 , один – как float64 , а один – как datetime64 . […]

Почему моя петля переписывается вместо добавления?

У меня есть несколько (25k) .csv файлов, которые я пытаюсь добавить в файл HDFStore. Все они имеют одинаковые заголовки. Я использую приведенный ниже код, но по какой-то причине всякий раз, когда я запускаю его, фреймворк данных не добавляется со всеми файлами, а скорее является только последним файлом в списке. filenames = [] #list of .csv […]

Трудность определения типа numpy int64

вопрос У меня возникли проблемы с идентификацией объектов numpy.int64 , чтобы преобразовать их в базовый python int для сериализации json. isinstance обычно работает, но не в следующем примере, и я хотел бы понять, почему это так. >>> x 0 >>> type(x) <class 'numpy.int64'> >>> import numpy >>> isinstance(x, numpy.int64) False контекст x в приведенном выше […]

Быстрая вставка панд DataFrame в DB Postgres с использованием psycopg2

Я пытаюсь вставить Pandas DataFrame в DB Postgresql (9.1) наиболее эффективным способом (используя Python 2.7). Использование «cursor.execute_many» выполняется очень медленно, так что это «DataFrame.to_csv (buffer, …)» вместе с «copy_from». Я нашел уже много! более быстрое решение в Интернете ( http://eatthedots.blogspot.de/2008/08/faking-read-support-for-psycopgs.html ), которое я адаптировал для работы с пандами. Мой код можно найти ниже. Мой вопрос […]

Использование pd.Series.dt.end_time создает разные временные метки, чем должно

Рассмотрим серию datetimes s = pd.Series(pd.to_datetime(['2010-08-05'])) s 0 2010-08-05 dtype: datetime64[ns] Я хочу создать серию объектов периода и получить атрибут end_time . sp = s.dt.to_period('M') sp 0 2010-08 dtype: object Теперь я получаю доступ к end_time . sp.dt.end_time 0 2010-08-31 dtype: datetime64[ns] Я был почти доволен, пока не понял, что end_time должен быть Timestamp('2010-08-31 23:59:59.999999999') […]

совместимость python с R в пером со строками

Я вижу ошибку при чтении перьевого объекта в R, который был удален из сеанса python. В python: In [248]: import pandas as pd In [249]: pd.DataFrame({'col': ['a','b','c']}).to_feather('strings_df.feather') В R: > library(feather) > df = read_feather('strings_df.feather') Error in coldataFeather(x, i) : RAW() can only be applied to a 'raw', not a 'list' pandas.Series ли это с […]

фильтровать данные по максимальному элементу из группы по паре

У меня есть блок данных из четырех столбцов df=DataFrame({'order_id':[134,101,131,159,101,189,120,102,134,130,231,421,141,129,141,101],\ 'user_id':[24,10,24,12,24,10,10,24,21,12,12,10,12,17,24,12], 'product_id':[1004,1041,1078,1001,1001,1074,1001,1019,1021,1004,1001,1010,1004,1004,1017,1004], 'sector':['a','a','b','d','c','a','c','a','c','a','b','c','a','b','a','a']}) order_id product_id sector user_id 120 1001 c 10 421 1010 c 10 101 1041 a 10 189 1074 a 10 159 1001 d 12 231 1001 b 12 130 1004 a 12 141 1004 a 12 101 1004 a 12 129 1004 b […]

Python: удаление дубликатов на основе уникальной комбинации двух функций и условия для третьей функции

Проблема заключается в следующем: у меня есть два набора данных, которые я хочу объединить в один. Наборы данных не имеют общего столбца ключа. Я хотел бы исключить дубликаты на основе уникальных комбинаций столбца 1 и столбца 2 и подобия столбца 3. По подобию я имею в виду, что значения столбца 3 в наборе данных А […]

Python - лучший язык программирования в мире.