Tag: pandas

Pandas – удаление нескольких пустых столбцов

У меня есть несколько таблиц, в которых первые 11 столбцов заполнены данными, но после этого все столбцы пусты. Я пытался: df=df.dropna(axis=1,how='all') который не сработал. Затем я использовал: df = df.drop(df.columns[range(11,36)], axis=1) Это работало в первых нескольких таблицах, но затем некоторые из этих таблиц были длиннее или короче, и поэтому это создавало сообщения об ошибках. Как […]

pandas value_counts () с несколькими значениями в форме списка?

Я пытаюсь сделать value_count для определенного столбца в моем фрейме данных Например: <Fruit> 0 'apple' 1 'apple, orange' 2 'orange' Как я могу его суммировать, чтобы он учитывал это, даже если он в списке? Таким образом, вышеизложенное должно дать мне: 'Apple' 2 'Orange' 2 Я попытался превратить строку в список, но не уверен, как value_count […]

Список sql-таблиц в pandas.read_sql

Я хотел бы открыть базу данных SQL 2005 (файл имеет расширение .mdf), и я пробовал это как таковое: import pandas as pd import pyodbc server = 'server_name' db = 'database_name' conn = pyodbc.connect('DRIVER={SQL Server};SERVER=' + server + ';DATABASE=' + db + ';Trusted_Connection=yes') sql = """ SELECT * FROM table_name """ df = pd.read_sql(sql, conn) Есть […]

Как скопировать строку из одного блока данных pandas в другой фрейм данных pandas?

У меня есть dataframe данных, которые я пытаюсь добавить в другой фрейм. Я пробовал различные способы с .append (), и не было успешного пути. Когда я печатаю данные из iterrows. Я предоставляю 2 возможных способа, чтобы попытаться решить проблему ниже, один создает ошибку, другой не заполняет dataframe чем-либо. Рабочий процесс, который я пытаюсь создать, – […]

Pandas: отображение рядов данных (float to string) без удаления завершающих нулей

Я пытаюсь создать ряд данных, содержащий строки формы: "%.2f +/- %.2f" используя два ряда данных pandas (измерения и их погрешность). Вот как я это сделал: df["F"] = df["Fint"].map(str) + " +/- " + df["Fint Err"].map(str) Однако карта (str) удаляет конечные нули из значений в серии. Например, для источника 'VLA 3 на 6lambda'. In[101]: df["Fint"] Out[101]: […]

Умножение нескольких столбцов в DataFrame

Я пытаюсь умножить N столбцов в столбцах DataFrame на N в одном и том же DataFrame, а затем разделить результаты на один столбец. У меня проблемы с первой частью, см. Пример ниже. import pandas as pd from numpy import random foo = pd.DataFrame({'A':random.rand(10), 'B':random.rand(10), 'C':random.rand(10), 'N':random.randint(1,100,10), 'X':random.rand(10), 'Y':random.rand(10), 'Z':random.rand(10), }) foo[['A','B','C']].multiply(foo[['X','Y','Z']], axis=0).divide(foo['N'], axis=0) То, что […]

Попытка выбрать данные из всех столбцов, начинающихся со строки из блока данных pandas

Я пытаюсь выбрать все столбцы, начинающиеся с определенной строки, а затем заполнить все нулевые значения новым значением. То, что я сейчас делаю, вместо этого превращает все заголовки столбцов в список. lifestyle_var = [col for col in list(df) if col.startswith('lifestyle')] df[lifestyle_var].fillna(1, inplace=True)

pandas – расширение DataFrame с внешним соединением

Прежде всего, я очень новичок в пандах, и я стараюсь опереться на столь тщательные ответы. Я хочу сгенерировать pandas DataFrame, представляющий карту witter tag subtoken -> poster где tag subtoken означает что-либо в наборе {hashtagA} U {i | i in split('_', hashtagA)} {hashtagA} U {i | i in split('_', hashtagA)} из таблицы, соответствующей poster -> […]

Переписывание значений в кадре данных pandas на основе значений NA из второго

Если у меня есть pandas df1 определяемый как: df1 = pd.DataFrame({'a': [ 1, 2], 'b': [3, 4]}) И df2 того же размера, те же имена столбцов и индекс, но с значениями NA, где-то, оба метод A : nan_locations = np.where(df2.isnull()) df1.values[nan_locations] = np.nan метод B : df1[df2.isnull()] = np.nan перезаписывает значения в df1 с NA […]

Оптимизация памяти при выборе из кадра данных pandas

У меня довольно большой панда данных (1.7G), из которых я выбираю некоторые столбцы для выполнения некоторых вычислений (найдите максимальное значение трех выбранных столбцов). Похоже, что эта операция интенсивно связана с памятью. Я пытаюсь найти способ избежать этой нехватки памяти. Для целей этого вопроса я упрощаю фрейм данных и использую поддельные данные. Мой код и область […]

Python - лучший язык программирования в мире.