Tag: pandas

Pandas множественный индексный фрейм: создание нового индекса или добавление к существующему индексу

У меня есть multi_df Pandas, multi_df , который имеет мультииндекс, сделанный из значений code , colour , texture и shape как multi_df ниже: import pandas as pd import numpy as np df = pd.DataFrame({'id' : range(1,9), 'code' : ['one', 'one', 'two', 'three', 'two', 'three', 'one', 'two'], 'colour': ['black', 'white','white','white', 'black', 'black', 'white', 'white'], 'texture': ['soft', […]

устранить пробелы в pd.read_csv

скажем, у меня есть файл csv с строками в следующем формате. 89.96.146.2 # Некоторая строка, связанная, To, 45.53,11.0 Я хочу прочитать эти строки в рамке данных pandas и выполнить некоторую функцию поиска на основе IP-адреса (89.96.146.2). df = pd.read_csv('test.csv', sep='#\s+', header=None).set_index(0) Это пробел с IP ?. Я могу выполнить только функцию поиска, если я разделил […]

Что произойдет с этим кодом matplotlib.finance.candlestick2_ochl?

Не знаю об ошибке. Файл csv находится из pd.datareader. Но я думаю, что речь идет не о datareader. файл csv, который я использовал, экспортируется устно, и он завершен. Я думаю, что это что-то не так с функцией «candlestick2_ochl ()» Исключение в обратном вызове Tkinter Traceback (последний последний вызов): Файл «C: \ Python34 \ lib \ […]

Вычисление числовых различий для каждой группы в пандах

Мой Dataframe имеет следующую структуру: patient_id | timestamp | measurement A | 2014-10-10 | 5.7 A | 2014-10-11 | 6.3 B | 2014-10-11 | 6.1 B | 2014-10-10 | 4.1 Я хотел бы рассчитать delta (разницу) между каждым измерением каждого пациента. Результат должен выглядеть так: patient_id | timestamp | measurement | delta A | 2014-10-10 […]

Извлечь массив (имя столбца, данные) из Pandas DataFrame

Это мой первый вопрос в Stack Overflow. У меня есть DataFrame of Pandas, как это. abcd one 0 1 2 3 two 4 5 6 7 three 8 9 0 1 four 2 1 1 5 five 1 1 8 9 Я хочу извлечь пары имени столбца и данных, данные которых равны 1, и каждый […]

Функция векторного формата для серии Pandas

Скажем, я начинаю с Series неформатированных телефонных номеров (как строки), и я бы хотел отформатировать их как (XXX) YYY-ZZZZ. Я могу получить подкомпоненты моего ввода, используя регулярные выражения и str.match или str.extract . И я могу выполнить форматирование, используя результат: ser = pd.Series(data=['1234567890', '2345678901', '3456789012']) matched = ser.str.match(r'(\d{3})(\d{3})(\d{4})') extracted = ser.astype(str).str.extract(r'(?P<first>\d{3})(?P<second>\d{3})(?P<third>\d{4})') formatmatched = matched.apply(lambda x: […]

сравнение строки в столбце и создание соответствующего нового столбца в python

У меня есть кадр данных, как показано ниже. Мне нужно сравнить столбец в кадре данных со строкой и создать новый столбец. DataFrame: col_1 AB_SUMI AK_SUMI SB_LIMA SB_SUMI XY_SUMI Если в col_1 присутствуют «AB», «AK», «SB», он должен создать новый столбец со своими соответствующими значениями, иначе «*» должен войти в значение столбца. ожидаемый результат: col_1 new_col […]

pandon pandas – ввод значений в новый столбец

У меня небольшой информационный кадр ниже расходов 4 человек. Существует пустой столбец под названием «Оценка». Я хотел бы оценить тех, кто потратил более 100 долларов США класса A и класса B для тех, кому меньше 100 долларов. Каков наиболее эффективный метод заполнения столбца «Оценка», если предположить, что это большой кадр данных? import pandas as pd […]

Закрытие файла после использования to_csv ()

Я новичок в python, и до сих пор я люблю ноутбук ipython для обучения. Я использую функцию to_csv (), чтобы выписать файл данных pandas в файл. Я хотел открыть csv, чтобы посмотреть, как он будет выглядеть в excel, и он будет открыт только в режиме только для чтения, потому что он все еще используется другим. […]

Панды: построение двух гистограмм на одном и том же участке

Я хотел бы, чтобы две гистограммы отображались на одном и том же сюжете (с разными цветами и, возможно, с альфа-алфавитами). Я пытался import random x = pd.DataFrame([random.gauss(3,1) for _ in range(400)]) y = pd.DataFrame([random.gauss(4,2) for _ in range(400)]) x.hist( alpha=0.5, label='x') y.hist(alpha=0.5, label='y') x.plot(kind='kde', style='k–') y.plot(kind='kde', style='k–') plt.legend(loc='upper right') plt.show() Это дает результат в 4 […]

Python - лучший язык программирования в мире.