Tag: pandas

Множественные индексы Pandas для имен уровней

Последняя версия Pandas поддерживает многоиндексные слайсеры. Однако для правильного использования их необходимо знать целочисленное расположение разных уровней. Например: idx = pd.IndexSlice dfmi.loc[idx[:,:,['C1','C3']],idx[:,'foo']] предполагает, что мы знаем, что третий уровень строки – это тот, который мы хотим индексировать с C1 и C3 , и что второй уровень столбца является тем, который мы хотим индексировать с помощью […]

Поиск индекса всех шаблонов в рамке данных Pandas

Я использую фрейм данных Pandas, индексированный по датам, который выглядит примерно так: TimeSys_Index 2014-08-29 00:00:18 0 2014-08-29 00:00:19 0 2014-08-29 00:00:20 1 2014-08-29 00:00:21 1 2014-08-29 00:00:22 0 2014-08-29 00:00:23 0 2014-08-29 00:00:24 0 2014-08-29 00:00:25 0 2014-08-29 00:00:26 0 2014-08-29 00:00:27 1 2014-08-29 00:00:28 1 2014-08-29 00:00:29 1 2014-08-29 00:00:30 1 2014-08-29 00:00:31 0 […]

Python Parsing HTML-таблица, созданная с помощью JavaScript

Я пытаюсь очистить таблицу с веб-сайта NYSE ( http://www1.nyse.com/about/listed/IPO_Index.html ) в кадре данных pandas. Для этого у меня есть такая настройка: def htmltodf(url): page = requests.get(url) soup = BeautifulSoup(page.text) tables = soup.findAll('table') test = pandas.io.html.read_html(str(tables)) return(test) #return dataframe type object Однако, когда я запускаю это на странице, вся таблица, возвращаемая в списке, по существу пуста. […]

В Python (Pandas / Numpy), как подмножить df, используя условие и определенный размер блока?

У меня есть df A = pd.DataFrame([[1, 5, 2, 0], [2, 4, 4, 0], [3, 3, 1, 1], [4, 2, 2, 0], [5, 1, 4, 0], [2, 4, 4, 0], [3, 3, 1, 1], [4, 2, 2, 0], [5, 1, 4, 0]], columns=['A', 'B', 'C', 'D'], index=[1, 2, 3, 4, 5, 6, 7, 8, 9]) […]

Создайте таблицу с использованием SQLAlchemy, но отложите создание индексов до загрузки данных

У меня есть файл python, который использует SQLAlchemy для определения всех таблиц в данной базе данных, включая все применимые индексы и ограничения внешнего ключа. Файл выглядит примерно так: Base = declarative_base() class FirstLevel(Base): __tablename__ = 'first_level' first_level_id = Column(Integer, index=True, nullable=False, primary_key=True, autoincrement=True) first_level_col1 = Column(String(100), index=True) first_level_col2 = Column(String(100)) first_level_col3 = Column(String(100)) class SecondLevel(Base): […]

Серия Pandas – запись числовых изменений

У меня есть панель данных панели с большим количеством наблюдений за данными о местоположении людей за 10 лет. Это выглядит примерно так: personid location_1991 location_1992 location_1993 location_1994 0 111 1 1 2 2 1 233 3 3 4 999 2 332 1 3 3 3 3 454 2 2 2 2 4 567 2 1 […]

Конверсии np.timedelta64 в дни, недели, месяцы и т. Д.

Когда я вычисляю разницу между двумя датами pandas datetime64 я получаю np.timedelta64 . Есть ли простой способ конвертировать эти дельта в представления, такие как часы, дни, недели и т. Д.? Я не мог найти какие-либо методы в np.timedelta64 которые облегчают конверсию между различными единицами, но похоже, что Pandas, похоже, знает, как преобразовать эти единицы в […]

Pandas TimeSeries в MongoDB

У меня есть общие панды TimeSeries, которые я хочу сохранить в MongoDB. Объект ts выглядит так: >ts 2013-01-01 00:00:00 456.852985 2013-01-01 01:00:00 656.015532 2013-01-01 02:00:00 893.159043 … 2013-12-31 21:00:00 1116.526471 2013-12-31 22:00:00 1124.903600 2013-12-31 23:00:00 1065.315890 Freq: H, Length: 8760, dtype: float64 Я хочу преобразовать это в массив документов JSON, где один документ – одна […]

Создайте взвешенное среднее значение для нерегулярных периодов в пандах

из данных моделирования с переменной timestep У меня есть нерегулярный вектор времени как индекс для моих значений, они хранятся в pandas.DataFrame. Рассмотрим упрощенный пример: import pandas as pd import datetime time_vec = [datetime.time(0,0),datetime.time(0,0),datetime.time(0,5),datetime.time(0,7),datetime.time(0,10)] df = pd.DataFrame([1,2,4,3,6],index = time_vec) Использование нормальной функции df.mean() приведет к ответу 3.2, который был бы истинным только в том случае, если […]

Как комбинировать теги в pandas dataframe с помощью str.format?

Это в основном вопрос синтаксиса pandas. У меня есть dataframe, который содержит, среди прочего, строки, помеченные с помощью квантификации и калибровки, оба из которых являются текстовыми. Есть> 100 000 строк, но только ~ 200 уникальных тегов квантификации и ~ 10 уникальных тегов калибровки. Я пытаюсь объединить их в один тег, и я натолкнулся на любопытство: […]

Python - лучший язык программирования в мире.