Tag: pandas

группировка pandas dataframe двумя столбцами (или более)?

У меня есть следующий фреймворк: mydf = pandas.DataFrame({"cat": ["first", "first", "first", "second", "second", "third"], "class": ["A", "A", "A", "B", "B", "C"], "name": ["a1", "a2", "a3", "b1", "b2", "c1"], "val": [1,5,1,1,2,10]}) Я хочу создать dataframe, который делает сводную статистику о столбце val элементов с тем же идентификатором class . Для этого я использую groupby следующим образом: […]

Преобразование группы pandas по объекту в мультииндексированный Dataframe

Если у меня есть следующий Dataframe >>> df = pd.DataFrame({'Name': ['Bob'] * 3 + ['Alice'] * 3, \ 'Destination': ['Athens', 'Rome'] * 3, 'Length': np.random.randint(1, 6, 6)}) >>> df Destination Length Name 0 Athens 3 Bob 1 Rome 5 Bob 2 Athens 2 Bob 3 Rome 1 Alice 4 Athens 3 Alice 5 Rome 5 […]

Морской график с нормированной осью y на группу

Мне было интересно, можно ли создать график подсчета Seaborn, но вместо фактического подсчета по оси y показать относительную частоту (процент) внутри своей группы (как указано с помощью параметра hue ). Я вроде как исправил это с помощью следующего подхода, но я не могу себе представить, что это самый простой способ: # Plot percentage of occupation […]

Функция ggplot-ggsave Python не определена

Я только начал учиться использовать python. Я использую anaconda python 3.5 и Rodeo, чтобы сделать простой ggplot . from ggplot import * df=pd.DataFrame({"Animal":["dog","dolphin","chicken","ant","spider"],"Legs":[4,0,2,6,8]}) p=ggplot(df, aes(x="Animal", weight="Legs")) + geom_bar(fill='blue') p ggsave("test.png",p) Все работает отлично до 5-й линии. Я получил сюжет, как хотел. Но у меня возникла ошибка, когда я попытался сохранить сюжет: NameError: имя 'ggsave' не […]

Основные панды: получить строку по значению индекса?

Извинения за этот основной вопрос, но 10 минут в Google и я все еще застрял. Я создал dataframe и установил индекс: df = pd.DataFrame(np.random.randn(8, 4),columns=['A', 'B', 'C', 'D']) df = df.set_index('A') Блок данных выглядит следующим образом: BCD A 0.687263 -1.700568 0.140175 1.420394 -0.212621 -0.700442 -0.041497 -1.034021 -0.614214 -0.437313 -0.464493 -1.182492 -0.885062 0.203892 -0.412400 -0.578346 -1.222661 […]

Python Pandas: применить функцию к кадру данных на месте

Можно ли использовать scipy-функцию, например norm.cdf на numpy.array (или pandas.DataFrame ), используя вариант numpy.apply , numpy.apply_along_axs и т. Д.? У меня есть таблица значений z-score, которые я бы хотел преобразовать в значения CDF для распределения нормы. Я в настоящее время использую norm.cdf от scipy для этого. В настоящее время я манипулирую с фреймворком данных, который […]

Что такое хорошая эвристика, чтобы определить, является ли столбец в pandas.DataFrame категоричным?

Я разрабатываю инструмент, который автоматически обрабатывает данные в формате pandas.DataFrame. Во время этого этапа предварительной обработки я хочу по-разному рассматривать непрерывные и категориальные данные. В частности, я хочу иметь возможность применять, например, OneHotEncoder только к категориальным данным. Теперь давайте предположим, что нам предоставлен pandas.DataFrame и нет никакой другой информации о данных в DataFrame. Что такое […]

pandas: что такое эквивалент группы SQL?

что было бы самым эффективным способом использования groupby и параллельно применять фильтр в пандах? В основном я прошу эквивалент в SQL select * … group by col_name having condition Я думаю, что существует много вариантов использования: от условных средств, сумм, условных вероятностей и т. Д., Что сделало бы такую ​​команду очень мощной. Мне нужна очень […]

Ошибка утверждения в столбцах в DataFrame с иерархической индексацией

Другой вопрос панды: У меня есть эта таблица с иерархической индексацией: In [51]: from pandas import DataFrame f = DataFrame({'a': ['1','2','3'], 'b': ['2','3','4']}) f.columns = [['level1 item1', 'level1 item2'],['', 'level2 item2'], ['level3 item1', 'level3 item2']] f Out[51]: level1 item1 level1 item2 level2 item2 level3 item1 level3 item2 0 1 2 1 2 3 2 3 […]

Почему pandas groupby (). Transform () требует уникальный индекс?

Я хочу использовать groupby (). Transform () для выполнения пользовательского (кумулятивного) преобразования каждого блока записей в (отсортированном) наборе данных. Если я не гарантирую, что у меня есть уникальный ключ, это не сработает. Зачем? Вот пример игрушки: df = pd.DataFrame([[1,1], [1,2], [2,3], [3,4], [3,5]], columns='a b'.split()) df['partials'] = df.groupby('a')['b'].transform(np.cumsum) df дает ожидаемое: ab partials 0 1 […]

Python - лучший язык программирования в мире.