Tag: pandas

Неожиданные результаты методов min () и max () серии Pandas из объектов Timestamp

Я столкнулся с этим поведением при выполнении основных манипуляций с данными, как в этом примере: In [55]: import pandas as pd In [56]: import numpy as np In [57]: rng = pd.date_range('1/1/2000', periods=10, freq='4h') In [58]: lvls = ['A','A','A','B','B','B','C','C','C','C'] In [59]: df = pd.DataFrame({'TS': rng, 'V' : np.random.randn(len(rng)), 'L' : lvls}) In [60]: df Out[60]: […]

Настройка цвета фона в Seaborn

Я использую Seaborn для составления некоторых данных в Pandas. Я делаю очень большие сюжеты ( factorplot s). Чтобы увидеть их, я использую некоторые средства визуализации в своем университете. Я использую экран Compound, состоящий из 4-х мониторов с небольшим (но отличным от нуля) скосом – зазор между экранами. Этот пробел черный. Чтобы свести к минимуму разрыв […]

Использование str.contains в pandas dataframe

Этот код pandas python генерирует сообщение об ошибке, "TypeError: неправильный тип операнда для унарного ~: 'float'" Я не знаю, почему, потому что я пытаюсь манипулировать объектом str df_Anomalous_Vendor_Reasons[~df_Anomalous_Vendor_Reasons['V'].str.contains("File*|registry*")] #sorts, leaving only cases where reason is NOT File or Registry У кого-нибудь есть идеи?

Слияние Pandon Pandas, вызывающее переполнение памяти

Я новичок в Pandas и пытаюсь объединить несколько подмножеств данных. Я даю конкретный случай, когда это происходит, но вопрос общий: как / почему это происходит и как я могу обойти это? Данные, которые я загружаю, составляют около 85 мегабайт или около того, но я часто наблюдаю, как мой сеанс python приближается к 10 гигабайтам памяти, […]

Сумма нескольких столбцов из кадра данных pandas

Поэтому скажите, что у меня есть следующая таблица: In [2]: df = pd.DataFrame({'a': [1,2,3], 'b':[2,4,6], 'c':[1,1,1]}) In [3]: df Out[3]: abc 0 1 2 1 1 2 4 1 2 3 6 1 Я могу суммировать a и b следующим образом: In [4]: sum(df['a']) + sum(df['b']) Out[4]: 18 Однако это не очень удобно для более […]

pydata blaze: позволяет ли параллельная обработка или нет?

Я ищу для параллелизации операций numpy или pandas. Для этого я смотрел в пыль пидаты. Мое понимание заключалось в том, что кажущаяся параллелизация была его главной точкой продаж. К сожалению, мне не удалось найти операцию, которая работает на нескольких ядрах. До сих пор существует параллельная обработка в пламени или в настоящее время только заявленная цель? […]

Python Pandas Multiprocessing Apply

Я задаюсь вопросом, есть ли способ сделать функцию pandas dataframe применять параллельно. Я огляделся и ничего не нашел. По крайней мере, теоретически я думаю, что это должно быть довольно просто реализовать, но ничего не увидишь. Это практически теоретическое определение параллели в конце концов .. Кто-нибудь еще пробовал это или знал способ? Если у меня нет […]

Pandas: как ссылаться и печатать несколько фреймов данных в виде таблиц HTML

Я пытаюсь разделить отдельные dataframes из groupby чтобы напечатать их как таблицы HTML pandas. Мне нужно ссылаться и визуализировать их отдельно в виде таблиц, чтобы я мог их скриншоты для презентации. Это мой текущий код: import pandas as pd df = pd.DataFrame( {'area': [5, 42, 20, 20, 43, 78, 89, 30, 46, 78], 'cost': [52300, […]

Проблемы, связанные с lambda для подачи заявки на панды DataFrame

Я пытаюсь применить функцию ко всем строкам pandas DataFrame (фактически только один столбец в этом DataFrame) Я уверен, что это синтаксическая ошибка, но я знаю, что я делаю неправильно df['col'].apply(lambda x, y:(x – y).total_seconds(), args=[d1], axis=1) Столбец col содержит кучу объектов datetime.datetime а d1 – самый ранний из них. Я пытаюсь получить столбец из общего […]

Сравнение Pandas Dataframe и точности с плавающей запятой

Я хочу сравнить два кадра данных, которые должны быть идентичными. Однако из-за точности с плавающей запятой мне говорят, что значения не совпадают. Я создал пример, чтобы имитировать его ниже. Как я могу получить правильный результат, чтобы конечный файл данных сравнения возвращался true для обеих ячеек? a = pd.DataFrame({'A':[100,97.35000000001]}) b = pd.DataFrame({'A':[100,97.34999999999]}) print a A 0 […]

Python - лучший язык программирования в мире.