Tag: dataframe

разрезать блок данных в интервалы для статистического анализа | питон

Я потерялся в одном упражнении, где мне нужно агрегировать различные функции dataframe для каждого сеанса, заданные между некоторыми точками datetime, так что конечные данные будут иметь следующий формат: {'Sessions': [{'SessionId':'<Int>', 'MaxNote':'<Int>', 'groups': [{'groupId':'Int', 'Students':[{'studentId':<Int>, 'date':'datetime', 'MaxEnglishNote':'<Int>', 'Math':'<Int>', 'Philosophy':'<Int>'}, {'studentId':<Int>, 'date':'datetime', 'MaxEnglishNote':'<Int>', 'Math':'<Int>', 'Philosophy':'<Int>'}]}, {'groupId':'Int', 'Students': [{'studentId':<Int>, 'date':'datetime', 'MaxEnglishNote':'<Int>', 'Math':'<Int>', 'Philosophy':'<Int>'}, {'studentId':<Int>, 'date':'datetime','MaxEnglishNote':'<Int>', 'Math':'<Int>', 'Philosophy':'<Int>'}]}]} То, […]

Для каждой строки dataframe получите как значения top-n, так и индексы столбцов, где они встречаются

Я имею матрицу 1000×1000 (чисел с плавающей запятой) в качестве кадра данных. Столбцы и строки – 0-1000. Для каждой строки я хочу 10 самых высоких значений и их индексную информацию. Это оказывается сложнее, чем я думал сначала: for row, index in df.iterrows(): temp_row = row.copy() sort_row = temp_row.sort() # somehow I want indices as well […]

Как to_csv в Bluemix

У нас есть dataframe, мы работаем с ним в ноутбуке ipython. Конечно, если бы можно было сохранить фреймворк таким образом, чтобы вся группа могла иметь доступ к нему через свои ноутбуки, это было бы идеально, и я хотел бы знать, как это сделать. Однако вы могли бы помочь со следующей конкретной проблемой? Когда мы делаем […]

Код функции помощника python

Мне нужно написать вспомогательную функцию, которая может быть применена в другом месте моей программы для переформатирования строки. Моя первая функция process_DrugCount (dataframe) возвращает три кадра данных, которые выглядят следующим образом: MemberID DSFS DrugCount 2 61221204 2- 3 months 1 8 30786520 1- 2 months 1 11 28420460 10-11 months 1 Моя вторая функция replaceMonth (string) […]

Преобразование Panda DataFrame в панель-подобную структуру

У меня много проблем с конкретной проблемой переформатирования данных в правильный формат. У меня есть такие данные: Date Hour Category Col1 Col2 1/1/10 1:00 1 France 1.1 1.2 1/1/10 2:00 2 France 2.9 1.4 1/1/10 1:00 1 UK 3.8 2.3 2/1/10 1:00 1 France 1.4 1.0 2/1/10 1:00 1 UK 1.1 0.1 2/1/10 2:00 2 […]

Pandas: невозможно удалить столбцы: ValueError: метки , не содержащиеся в оси

У меня есть df, созданный из простой CSV. Когда я пытаюсь ссылаться на столбцы по их именам, сливаться в новый df или отбрасывать, я получаю ValueError: labels [<colName>] not contained in axis Я понимаю, что для удаления столбца вы должны использовать axis=1 Это как если бы каким-то образом df путали, что мои столбцы являются столбцами, […]

Создавать полностью новый DataFrame эффективно из groupby .agg () или .apply () в Pandas?

Я хотел бы создать новый dataframe из результатов groupby по другому. Результат должен иметь одну строку на группу (в основном, векторный снимок карты), а новые имена столбцов не имеют никакого отношения к существующим именам. Это похоже на естественное использование для agg , но, похоже, только создает существующие столбцы. d = pd.DataFrame({'a': [0,0,1,1], 'b': [3,4,5,6], 'c': […]

Как я могу получить аналогичное резюме для блока данных Pandas, как в R?

Различные шкалы позволяют выполнять различные операции. Я хотел бы указать масштаб столбца в dataframe df . Затем df.describe() следует учитывать это. Примеры Номинальная шкала : номинальная шкала позволяет проверять эквивалентность. Примерами этого являются пол, имена, названия городов. Вы можете в основном рассчитывать, как часто они появляются и дают наиболее распространенные (режим). Шкала ординалов : вы […]

Назначить * new * подмножество pandas DataFrame

Скажем, у меня есть данные в DataFrame df . В частности, df.columns – это MultiIndex, где первый уровень указывает «какие данные» мы имеем дело, а второй уровень указывает какой-то идентификатор. Начнем с того, что существует только одно уникальное значение на внешнем уровне столбца: import numpy as np import pandas as pd df = pd.DataFrame(np.random.randn(400, 5), […]

Получить диапазон от разреженного datetimeindex

У меня есть такой панда DataFrame для каждого пользователя в большой базе данных. каждая строка является периодом длины [start_date, end_date], но иногда две последовательные строки фактически являются тем же периодом: end_date равен следующей start_date (красная подчеркивание). Иногда периоды даже перекрываются более чем на 1 день. Я хотел бы получить «реальные периоды», объединив строки, соответствующие тем […]

Python - лучший язык программирования в мире.