Tag: dataframe

Очистка и группировка значений

df = pd.read_csv(file, sep=',', encoding='ISO-8859-1') column_names = list(df.columns) col_mapping = {'Sex ':'Sex', 'Fatal (Y/N)': 'Fatal', 'Species ' : 'Species'} df = df.rename(columns=col_mapping, copy=False) Я преобразовал данные, так как значения из столбца df ['Age'], содержащие букву или другие символы, принимают значение NaN df['Age'] = np.where(pd.to_numeric(df['Age'], 'coerce').notnull(), df['Age'], NaN) Я попытался использовать df.dropna(df.Age) для очистки значений NaN […]

Как поэтапно добавлять строки в Pandas Dataframe?

Я вычисляю открытый высокий низкий уровень данных в течение каждых 15 минут с 9:15 до 15:30 и хочу сохранить значения OHLC в кадре данных в каждой новой строке. ohlc = pd.DataFrame(columns=('Open','High','Low','Close')) for row in ohlc: ohlc.loc[10] = pd.DataFrame([[candle_open_price,candle_high_price,candle_low_price,candle_close_price]]) Но я не могу сказать, что вы ошибаетесь: ValueError: cannot set a row with mismatched columns Просто […]

Сплит-файл данных pandas на несколько фреймов данных

У меня есть dataframe, где несколько столбцов представляют собой категориальные данные. Я хотел бы разделить его на основе каждой комбинации. Ниже приведен упрощенный вариант того, что у меня есть: In [394]: df.head(10) Out[394]: existing priority State payment 0 YN FL 10.4 1 NN CA 918.0 2 YN CA 493.0 3 YN FL 743.2 4 YY […]

индексирование python, запись vals, где совпадение

Я новичок в python, и я ищу способ программно проиндексировать и присваивать значения файловому кадру, где определенные, где определенные столбцы совпадают. В настоящее время я делаю это в Excel с этой функцией в «C2» и каждой ячейке в столбце C до последней строки »= INDEX (B: B, MATCH (1, (T: T = T2) (Y: Y […]

Показатель Pandas 0,18 против 0,12

У меня есть этот код: from datetime import date, timedelta from time import time import pandas as pd sizes = [500] base_date = date(2016,10,31) for n in sizes: dates = [base_date – timedelta(days = x) for x in range(1, n, 1)] dates_df = pd.DataFrame({'DATE' : dates, 'key' : 1}) identifiers = range(1, 5000) identifiers_df = […]

Строка Drop в кадре данных на основе условия в столбце

У меня есть dataframe, который выглядит следующим образом class number 2015 0 0 0 ret Real Estate 1 0 ret empty 2 0 ret Equity 3 0 ret Participations 4 0 ret empty 5 0 ret Private Equity 6 0 ret Hedge Fund 7 0 ret High Yield 8 0 ret Loan, Multitranchen, FSB, FSS_FSB […]

Запрос Python Pandas DataFrame с индексом или столбцом Datetime

Итак, я новичок в пакете Pandas. Я делал несколько тестов на стратегию ETF, мне нужно сделать много запросов в Pandas Dataframe. Итак, допустим, что я – эти два DataFrames, df и df1, единственное отличие состоит в том, что df имеет индекс datetime, тогда как df1 имеет временную метку в качестве столбца и целочисленный индекс In[104]: […]

Замена значения Tricky str в PANDAS DataFrame

Обзор проблемы : Я пытаюсь очистить данные запаса, загруженные из файла CSV, в Pandas DataFrame. Операция индексирования, которую я выполняю, работает. Если я выхожу на print , я вижу, что значения, которые мне нужны, вытягиваются из фрейма. Однако, когда я пытаюсь заменить значения, как показано на скриншоте, PANDAS игнорирует мой запрос. В конечном счете, я […]

Как получить доступ к отдельным элементам в катящемся окне на фрейме данных

У меня есть dataframe с квартальным ВВП США как значения столбца. Я хотел бы посмотреть на значения, 3 за раз, и найти индекс, где ВВП упал в течение следующих двух кварталов подряд. Это означает, что мне нужно сравнивать отдельные элементы внутри df ['GDP'] друг с другом в группах по 3. Вот пример dataframe. df = […]

Перемещение пользовательской функции над сериями pandas в python

У меня есть серия панд Date 2016-11-01 100000.000000 2016-11-02 100500.648302 2016-11-03 100481.450478 2016-11-04 99550.193742 2016-11-07 101913.648567 Я пытаюсь вычислить коэффициент прокатки в этой серии. Формула для коэффициента sharpe равна sharpe = np.sqrt(252)*(average_daily_returns/volatility) где мы можем рассчитывать ежедневные доходы как daily_returns = (series/series.shift(1))-1 daily_returns = daily_returns[1:] тогда среднее _daily_returns становится average_daily_returns = daily_returns.mean() и волатильность становится […]

Python - лучший язык программирования в мире.