Tag: pandas

Пользовательский формат времени Python Pandas в выводе Excel

Я использовал pandas.groupby для группировки pandas DataFrame на двух столбцах и вычисления среднего и среднего времени. Мой итоговый набор данных выглядит примерно так: Size Category Average Time Median Time 1 A 0.002056385 0.000310995 B 0.000310995 C 0.000310995 10 A 0.001852681 B 0.000310995 C 0.000310995 Я хотел бы экспортировать эту таблицу, чтобы Excel и форматировать столбцы […]

Как проверить объект numpy / pandas, т.е. str () в R

Когда я использую R, я могу использовать str() для проверки объектов, которые являются списком вещей в большинстве случаев. Недавно я перешел на Python для статистики и не знаю, как проверить объекты, с которыми я сталкиваюсь. Например: import statsmodels.api as sm heart = sm.datasets.heart.load_pandas().data heart.groupby(['censors'])['age'] Я хочу исследовать, какой объект является heart.groupby(['censors']) который позволяет мне добавить […]

ValueError: недопустимое значение заполнения с помощью <class 'pandas.core.frame.DataFrame'>

Я тренируюсь по проблеме практики прогнозирования кредита и пытаюсь заполнить недостающие значения в моих данных. Я получил данные отсюда . Чтобы завершить эту проблему, я следую этому руководству . Вы можете найти весь код ( имя файла model.py ), который я использую, и данные здесь, на GitHub. DataFrame выглядит так: df[['Loan_ID', 'Self_Employed', 'Education', 'LoanAmount']].head(10) Out: […]

Поиск максимальных кликов и удаление узлов?

Я пытаюсь найти максимальные клики для набора элементов. В настоящее время я использую networkx-библиотеку python и используя функцию find_cliques (), чтобы найти все максимальные клики, как показано ниже: import newtworkx as nx G = nx.Graph() E = [[1,2], [1,3], [1,4], [2,3], [2,4], [3,4], [2,6], [2,5], [5,6]] G.add_edges_from(E) #G.edges() lst = list(nx.find_cliques(G)) lst Out [] : […]

Почему я не могу назначить часть моего Pandas DataFrame?

Я смущен, почему следующие pandas не успешно назначают последние два значения столбца A первым двум элементам столбца B: df = pd.DataFrame({'A': [1, 2, 3, 4, 5, 6, 7], 'B': [10, 20, 30, 40, 50, 60, 70]}) df = df.join(pd.DataFrame({'C': ['a', 'b', 'c', 'd', 'e', 'f', 'g']})) df['B2'] = df.B.shift(2) df[:2].B2 = list(df[-2:].A) Что меня озадачивает, […]

Форматирование Pandas DataFrame

У меня есть панда DataFrame со смешанными значениями в нем. Я работаю в ноутбуке Ipython, развивая его. При отображении фрейма данных я бы хотел, чтобы он отображался для облегчения чтения. На данный момент я использую форматирование строки python, чтобы отобразить все поплавки до 4 десятичных знаков и добавить тысячи разделителей. pd.options.display.float_format = '{:,.4f}'.format В идеале […]

Matplotlib: Как использовать timestamps с broken_barh?

У меня есть фрейм данных pandas со временными метками в качестве индексных и числовых значений в столбцах. Я хочу использовать broken_bar для рисования прямоугольников, чтобы выделить некоторые части таймсерий. Как использовать timestamps с broken_barh? df.plot(ax = ax) ax.broken_barh([(startTs, pd.offsets.Week())], (10,50), facecolors = colors, alpha = 0.25) # Where type(startTs) is pandas.tslib.Timestamp Когда я выполняю приведенный […]

как наложить сюжет панды, график matplotlib и ось

У меня есть один сюжет в формате: df.plot() Другой – в формате: fig,ax=plt.subplots() ax.plot_date(t,y,'b-') Я не могу преобразовать первый график в стандартный график matplotlib, потому что он передискретирован из времен pandas. Как мне наложить два графика?

Матрица Python Pandas с использованием сходства с jaccard

Я реализовал функцию для построения матрицы расстояния с использованием сходства jaccard: import pandas as pd entries = [ {'id':'1', 'category1':'100', 'category2': '0', 'category3':'100'}, {'id':'2', 'category1':'100', 'category2': '0', 'category3':'100'}, {'id':'3', 'category1':'0', 'category2': '100', 'category3':'100'}, {'id':'4', 'category1':'100', 'category2': '100', 'category3':'100'}, {'id':'5', 'category1':'100', 'category2': '0', 'category3':'100'} ] df = pd.DataFrame(entries) и матрица расстояний с scipy from scipy.spatial.distance import […]

Сбросить Pandas 'Series.rolling' на ежедневной основе

Я использую Pandas для анализа рыночных данных на 1 минуту OHLC и использовал следующее, чтобы добавить столбец, содержащий 20-месячную (20-минутную) скользящую среднюю в мой кадр данных с именем «данные»: data['maFast'] = Series.rolling(data['Last'],center=False,window=20).mean() Мои данные имеют daystart = '9:30' и dayend = '16: 14: 59 ', и я хочу, чтобы скользящая средняя была сброшена для каждого […]

Python - лучший язык программирования в мире.