Tag: pandas

Pandas ".convert_objects (convert_numeric = True)" устарел

У меня есть эта строка в моем коде, который преобразует мои данные в числовые … data["S1Q2I"] = data["S1Q2I"].convert_objects(convert_numeric=True) Дело в том, что теперь новая версия pandas (0.17.0) говорит, что эта функция устарела. Это ошибка: FutureWarning: convert_objects is deprecated. Use the data-type specific converters pd.to_datetime, pd.to_timedelta and pd.to_numeric. data["S3BD5Q2A"] = data["S3BD5Q2A"].convert_objects(convert_numeric=True) Итак, я пошел в новую […]

групповой мультииндекс pandas dataframe

Можно ли группировать по мультииндексному (2 уровням) кадр данных панд на один из уровней с несколькими индексами? Единственный способ, которым я знаю это сделать, – reset_index на мультииндексе, а затем снова установить индекс. Я уверен, что есть лучший способ сделать это, и я хочу знать, как это сделать.

Укажите правильные типы данных, используя pandas.read_csv

Я хотел бы загрузить файл csv в Pandas DataFrame. Как мне для каждого столбца указать, какой тип данных он содержит? Я думаю, это легко сделать, используя аргумент dtype ? Вот пример, определяющий числовые данные. import pandas as pd import numpy as np df = pd.read_csv(<file-name>, dtype={'A': np.int64, 'B': np.float64}) Но как указать временные данные и […]

Проверьте, существует ли строка в одном кадре данных в другом кадре данных

У меня есть кадр данных A, как это: И еще один кадр данных B, который выглядит следующим образом: Я хочу добавить столбец «Exist» в кадр данных A, чтобы, если пользователь и фильм существуют в кадре данных B, тогда «Exist» имеет значение True, в противном случае это False. Итак, A должен выглядеть следующим образом:

Параллельная read_table в пандах

Есть ли способ распараллеливать вызов read_table ()? В моем случае это связано с CPU из-за синтаксического анализа даты. Я не вижу никакого способа добиться этого, читая документы. Единственное, что приходит на ум – это расщепление входного файла, одновременное вызов read_table, а затем объединение данных.

Правильный способ установки значения на фрагменте в pandas

У меня есть dataframe pandas: data. он имеет столбцы ["name", 'A', 'B'] Что я хочу делать (и работает): d2 = data[data['name'] == 'fred'] #This gives me multiple rows d2['A'] = 0 Это установит столбец А в строки fred равным 0. Я также сделал: indexes = d2.index data['A'][indexes] = 0 Однако оба дают мне такое же […]

Как создать отдельную колонку отслеживания на основе дат?

У меня есть dataframe, df: df: val date 2012-01-01 4.2 2012-01-02 3.7 2012-01-03 6.2 2012-01-04 1.2 2012-01-05 2.4 2012-01-06 2.3 То, что я хочу создать, – это столбец, начинающийся с 0 для указанной даты и заполняющий столбец соответственно (предположим, что дата в этом случае – 2012-01-04): df2: val tracking date 2012-01-01 4.2 -3 2012-01-02 3.7 […]

Python Pandas: групповая операция и применение многостолбцовых операций

df1 – это DataFrame с 4 столбцами. Я хочу создать новый DataFrame (df2), объединив df1 с столбцом «A» с многоколоночной операцией в столбцах «C» и «D», Колонка «AA» = средняя (C) + средняя (D) Столбец «BB» = std (D) df1= pd.DataFrame({ 'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'], 'B' : ['one', 'one', 'two', […]

Pandas reindex и заполнить отсутствующие значения: «Индекс должен быть монотонным»

Отвечая на этот вопрос stackoverflow , я обнаружил интересное поведение при использовании метода заливки при переиндексировании фрейма данных. Этот старый отчет об ошибке в pandas говорит, что df.reindex(newIndex,method='ffill') должен быть эквивалентен df.reindex(newIndex).ffill() , но это НЕ поведение, которое я наблюдаю Вот фрагмент кода, который иллюстрирует поведение df = pd.DataFrame({'values': 2}, index=pd.DatetimeIndex(['2016-06-02', '2016-05-04', '2016-06-03'])) newIndex = […]

Каков самый быстрый способ обеспечить, чтобы конкретный столбец был последним (или первым) в кадре данных

учитывая df df = pd.DataFrame(np.arange(8).reshape(2, 4), columns=list('abcd')) Предположим, мне нужно, чтобы столбец 'b' был в конце. Я мог бы сделать: df[['a', 'c', 'd', 'b']] Но каков наиболее эффективный способ обеспечить, чтобы данный столбец был в конце? Это то, с чем я шел. Что бы другие сделали? def put_me_last(df, column): return pd.concat([df.drop(column, axis=1), df[column]], axis=1) put_me_last(df, […]

Python - лучший язык программирования в мире.