Tag: pandas

Pandas: Drop quasi-duplicates по значениям столбца

У меня есть список, который, скажем так, выглядит так (который я помещаю в DF): [ ['john', '1', '1', '2016'], ['john', '1', '10', '2016'], ['sally', '3', '5', '2016'], ['sally', '4', '1', '2016'] ] columns : ['name', 'month', 'day', 'year'] Я в основном хочу вывести новый DF с самой старой строкой для каждого человека. Поэтому он должен […]

return pandas DF column с количеством дней, прошедших между индексом и сегодняшней датой

У меня есть dF, у которого есть даты как его индекс, и я хотел бы добавить новый столбец «delta», который показывает количество дней между датой в индексе и текущей датой. У меня есть: dF['today'] = '2015-01-30' dF['today'] = pd.to_datetime(dF['today']) dF['tvalue']= dF.index dF['delta'] = (dF['tvalue'] – dF['today']) Очевидно, что это не работает. Любая обратная связь?

Pandas читает csv dateint столбцы в datetime

Я новичок в StackOverflow и pandas. Я пытаюсь читать в большом CSV-файле с данными о запасах на фондовом рынке в следующем формате: date,time,open,high,low,close,volume,splits,earnings,dividends,sym 20130625,715,49.2634,49.2634,49.2634,49.2634,156.293,1,0,0,JPM 20130625,730,49.273,49.273,49.273,49.273,208.39,1,0,0,JPM 20130625,740,49.1866,49.1866,49.1866,49.1866,224.019,1,0,0,JPM 20130625,745,49.321,49.321,49.321,49.321,208.39,1,0,0,JPM 20130625,750,49.3306,49.369,49.3306,49.369,4583.54,1,0,0,JPM 20130625,755,49.369,49.369,49.369,49.369,416.78,1,0,0,JPM 20130625,800,49.369,49.369,49.3594,49.3594,1715.05,1,0,0,JPM 20130625,805,49.369,49.369,49.3306,49.3306,1333.7,1,0,0,JPM 20130625,810,49.3306,49.3786,49.3306,49.3786,1567.09,1,0,0,JPM У меня есть следующий код, чтобы прочитать его в DataFrame в Pandas import numpy as np import scipy as sp import pandas as […]

Pandas: создайте новый кадр данных, используя несколько результатов GroupBy

Мои данные – это Data Frame с розничными товарами и их продажами. Колонны включают в себя: продажи единиц в 2016 году, продажи единиц в 2015 году, описание товара и т. Д. Когда я пытаюсь сделать группу для бренда: Data.groupby(by="Major Brand").sum() Я получаю следующую ошибку: TypeError: unorderable types: int() < str() Я предполагаю, что это потому, […]

Используя pandas в Python, как я могу сделать гистограмму одного блока данных, используя ячейки из другого фрейма данных?

Предположим, у меня есть два кадра данных pandas: a и b , выход которых выглядит так: a : 0 4.0 1 4.3 2 4.8 3 3.5 4 3.0 b : 0 -1.000000 1 0.333333 2 0.000000 3 -0.500000 4 -2.000000 Я хочу использовать 4 бункера для загрузки значений a . Чтобы сделать это, я делаю […]

Доступ к dtpe-анализу поведения read_csv при создании DataFrame из вложенного списка

Это следует из обсуждения с piRSquared здесь . В принципе, мне любопытно, почему read_csv намного лучше (debatable?) При выводе типов данных и отказоустойчивости, чем создание DataFrame, например, из вложенного списка? Существует много случаев, когда выведенные типы данных вполне приемлемы для моей работы, но эта функциональность, похоже, не отображается в DataFrame() , что означает, что мне […]

Как разрешить ошибку позиционного индекса в python при решении условия в python?

У меня есть следующие данные, и я пытаюсь использовать следующий код: Name Sensex_index Start_Date End_Date AAA 0.5 20/08/2016 25/09/2016 AAA 0.8 26/08/2016 29/08/2016 AAA 0.4 30/08/2016 31/08/2016 AAA 0.9 01/09/2016 05/09/2016 AAA 0.5 12/09/2016 22/09/2016 AAA 0.3 24/09/2016 29/09/2016 ABC 0.9 01/01/2017 15/01/2017 ABC 0.5 23/01/2017 30/01/2017 ABC 0.7 02/02/2017 15/03/2017 так что я делаю […]

Сохранять заголовок при добавлении к Pandas dataframe w / Python

Поэтому я разбираю данные, содержащиеся во многих файлах, просматривая их и сохраняя определенные элементы в списке и добавляя каждый результирующий список к файлу данных с помощью Pandas с использованием Python. Он работает, но я не могу понять, как сохранить строку заголовка при добавлении. Он либо исчезает, либо дублируется с каждым добавлением. Приведенный ниже код служит […]

numpy.sum ведет себя по-разному на numpy.array vs pandas.DataFrame

Короче говоря, numpy.sum(a, axis=None) суммирует все ячейки массива, но суммирует по строкам кадра данных. Я думал, что pandas.DataFrame построен поверх numpy.array и не должен иметь этого другого поведения? Что такое конверсия под капотом? a1 = numpy.random.random((3,2)) a2 = pandas.DataFrame(a1) numpy.sum(a1) # Sums all cells numpy.sum(a2) # Sums over rows

модель линейной регрессии с ошибками AR python

Есть ли пакет python (statsmodels / scipy / pandas / etc …) с функциональностью для оценки коэффициентов для модели с линейной регрессией с ошибками авторегрессии в python, например, следующая реализация SAS ниже? http://support.sas.com/documentation/cdl/en/etsug/63348/HTML/default/viewer.htm#etsug_autoreg_sect003.htm

Python - лучший язык программирования в мире.