Tag: pandas

Очистка и группировка значений

df = pd.read_csv(file, sep=',', encoding='ISO-8859-1') column_names = list(df.columns) col_mapping = {'Sex ':'Sex', 'Fatal (Y/N)': 'Fatal', 'Species ' : 'Species'} df = df.rename(columns=col_mapping, copy=False) Я преобразовал данные, так как значения из столбца df ['Age'], содержащие букву или другие символы, принимают значение NaN df['Age'] = np.where(pd.to_numeric(df['Age'], 'coerce').notnull(), df['Age'], NaN) Я попытался использовать df.dropna(df.Age) для очистки значений NaN […]

Pandas заменить на строку и целые числа – неправильное поведение?

Я столкнулся с потенциально неправильным поведением pandas вместо строк и целых чисел. Если в dataframe есть как 0 (целое число), так и «0» (строки), то вместо «0» влияют как строки, так и целые числа. Вот как это происходит: In [1]: df = pd.DataFrame({'numbers' : [0, 1, 2, 0], 'strings' : ['0', 1, 2, '0']}) Чтобы […]

Частный случай дубликатов

Проблема, с которой я сталкиваюсь, заключается в следующем, и мне интересно, есть ли разумный способ приблизиться к ней. Упрощенный пример : dum1 = pd.DataFrame([[123,234,0], [234,345,456], [345,567,0], [678,0,0]], index=[0,1,2,3],columns=['phone1','phone2','phone3']) Реальный случай имеет более 30 000 записей и, возможно, 10 столбцов телефонных номеров. Записи должны рассматриваться как дубликаты, если у них есть общий номер телефона «прямо» или […]

Преобразовать строку с точностью ns в datetime в рамке данных panda

Мне сложно преобразовать строку с точностью ns в формате datetime в рамке данных panda. У меня есть фрейм данных, как показано ниже: print df Event Time 0 A 08:00:00.123456789 1 B 08:00:00.234567890 2 C 08:00:00.345678901 Я хотел бы преобразовать столбец Time из строки в datetime без потери точности ns. Я пробовал: df['Time'] = pd.to_datetime(df['Time']) но […]

Как индексирование PyTables сравнивается с индексом pandas HDFStore (PyTables)

Библиотека PyTables и объект HDFStore (на основе PyTables) обеспечивают индексирование для пользователя. Только для PyTables мы создаем файл HDF5 следующим образом (из документации): from tables import * class Particle(IsDescription): identity = StringCol(itemsize=22, dflt=" ", pos=0) # character String idnumber = Int16Col(dflt=1, pos = 1) # short integer speed = Float32Col(dflt=1, pos = 2) # single-precision […]

Python – выполнить операцию FIFO для данных в Pandas DataFrame

У меня есть данные в Pandas, которые выглядят так. | DAY | IN | OUT | |—–|—–|—–| | 1 | 100 | 50 | | 2 | 20 | 60 | | 3 | 10 | 5 | | 4 | 5 | 15 | Это означает, что товар попал в очередь, и сколько из […]

argmin в наборе данных, содержащем NaN python

SGSIN VNVUT CNSHK HKHKG JPOSA To MYPKL 1 4 8 9 13 SGSIN NaN 3 7 8 12 VNVUT NaN NaN 3 4 8 CNSHK 1 NaN NaN 1 5 HKHKG NaN NaN NaN NaN 3 Скажем, у нас есть вышеупомянутый набор данных с использованием панд. Я хочу вычислить arg_minimum по первому столбцу и игнорировать […]

Python Pandas – слияние между условием

У меня есть 2 кадра данных в pandon pandas Dataframe 1 User_id zipcode 1 12345 2 23456 3 34567 Dataframe 2 ZipCodeLowerBound ZipCodeUpperBound Region 10000 19999 1 20000 29999 2 30000 39999 3 Как я могу отобразить в области в dataframe 1 с условием if(df1.zipcode>=df2.ZipCodeLowerBound and df1.zipcode<=df2.ZipCodeUpperBound) используя слияние pandas

Как поэтапно добавлять строки в Pandas Dataframe?

Я вычисляю открытый высокий низкий уровень данных в течение каждых 15 минут с 9:15 до 15:30 и хочу сохранить значения OHLC в кадре данных в каждой новой строке. ohlc = pd.DataFrame(columns=('Open','High','Low','Close')) for row in ohlc: ohlc.loc[10] = pd.DataFrame([[candle_open_price,candle_high_price,candle_low_price,candle_close_price]]) Но я не могу сказать, что вы ошибаетесь: ValueError: cannot set a row with mismatched columns Просто […]

Развертывание приложения для колб с пандами на эластичный бобовый стебель

Я новичок в AWS. Пытаемся развернуть приложение для простых колб в AWS. У меня не было проблем, пока я не включил пакет панд. Даже без простейшего приложения я получаю такие ошибки, как «ваш файл требований.txt недействителен». Мое тестовое приложение очень просто: в папке application.py и requirements.txt есть только два файла. Application.py является основным: from flask […]

Python - лучший язык программирования в мире.