Tag: pandas

Pandas DataFrame: удалить конкретную дату во все високосные годы

Следующая последовательность – это выдержка из Pandas DataFrame, которая у меня есть: >>> df_t value 2011-01-31 -5.575000 2011-03-31 7.700000 2011-05-31 15.966667 2011-07-31 10.683333 2011-08-31 10.454167 2011-10-31 9.320833 2011-12-31 -0.358333 2012-01-31 -11.550000 2012-03-31 1.700000 2012-05-31 12.333333 2012-07-31 12.816667 2012-08-31 11.837500 2012-10-31 2.733333 2012-12-31 4.075000 2013-01-31 2.450000 2013-03-31 -4.262500 2013-05-31 11.491667 2013-07-31 14.812500 2013-08-31 13.920833 2013-10-31 4.125000 […]

Удаление строк DataFrame в Pandas на основе значения столбца – несколько значений для удаления

У меня есть список значений (неизвестно заранее, в списке Python), что столбец в моем Panda DataFrame не должен иметь для всех строк. Все рецепты в Интернете (например, этот ) показывают, как это сделать, но только одно значение для исключения, но у меня есть несколько значений для исключения. Как мне это сделать? Обратите внимание, что я […]

Как обрабатывать заголовки файлов excel с помощью pandas / python

Я пытаюсь читать https://www.whatdotheyknow.com/request/193811/response/480664/attach/3/GCSE%20IGCSE%20results%20v3.xlsx с помощью панд. Сохраняя его, мой скрипт import sys import pandas as pd inputfile = sys.argv[1] xl = pd.ExcelFile(inputfile) # print xl.sheet_names df = xl.parse(xl.sheet_names[0]) print df.head() Однако это, похоже, не обрабатывает заголовки должным образом, поскольку это дает GCSE and IGCSE1 results2,3 in selected subjects4 of pupils at the end of […]

Как я могу сделать интерполяционный reindex в pandas, используя индексы datetime?

У меня есть серия с индексом datetime, и я бы хотел интерполировать эти данные, используя какой-то другой, произвольный индекс datetime. По сути, я хочу, чтобы сделать следующий фрагмент кода более или менее: from pandas import Series import datetime datetime_index = [datetime.datetime(2010, 1, 5), datetime.datetime(2010, 1, 10)] data_series = Series([5, 15], [datetime.datetime(2010, 1, 5), datetime.datetime(2010, 1, […]

Python pandas linear регрессионная группа

Я пытаюсь использовать линейную регрессию в группе по pandas python dataframe: Это dataframe df: group date value A 01-02-2016 16 A 01-03-2016 15 A 01-04-2016 14 A 01-05-2016 17 A 01-06-2016 19 A 01-07-2016 20 B 01-02-2016 16 B 01-03-2016 13 B 01-04-2016 13 C 01-02-2016 16 C 01-03-2016 16 #import standard packages import pandas […]

Сравнение панд DataFrame с серией

Я рассматривал этот вопрос и этот вопрос, но они не помогли мне с моей проблемой. Проблема очень проста, но немного сложно сказать. У меня есть Dataframe, который имеет такую ​​матрицу, как: Stock1 Stock2 Date1 3 4 Date2 1 4 Для каждой даты, которая является моим индексом, я хочу сравнить значения с одной точкой в ​​серии. […]

склеарная стратифицированная выборка на основе столбца

У меня есть довольно большой файл CSV, содержащий данные обзора amazon, которые я прочитал в кадре данных pandas. Я хочу разделить данные 80-20 (тест поездов), но при этом я хочу убедиться, что данные разделения пропорционально представляют значения одного столбца (категории), т. Е. Вся другая категория отзывов присутствует как в поезде и тестовые данные пропорционально. Данные […]

python pandas из набора элементов в dataframe

Каков более масштабируемый способ перехода из списка элементов: itemset = [['a', 'b'], ['b', 'c', 'd'], ['a', 'c', 'd', 'e'], ['d'], ['a', 'b', 'c'], ['a', 'b', 'c', 'd']] К такому файлу данных :: >>> df abcde 0 1 1 0 0 0 1 0 1 1 1 0 2 1 0 1 1 1 3 0 […]

Объединить много строк json с входами pandon pandas

Резюме Я создал объекты данных, которые состоят из (помимо прочего) объектов pandas таких как DataFrame s и Panel s. Я ищу сериализацию этих объектов в json , и скорость является первоочередной задачей. Пример использования pandas.Panel Скажем, например, у меня есть панель: In [54]: panel = pandas.Panel( numpy.random.randn(5, 100, 10), items = ['a', 'b', 'c', 'd', […]

Множественные разделители в заголовках столбцов также разделяют значения строк

У меня возникла проблема с определением множественного seperator при чтении файла. Это изначально было решено в моих предыдущих пост- чтениях-файлах с несколькими разделителями-в-столбцах-заголовках-и-пропущенных нескольких строк благодаря @piRsquared Когда я подробно рассмотрел свои реальные данные, я понял, что в некоторых столбцах есть расширения .cd или .dvd, и когда я применил вышеприведенное решение, они также разделены как […]

Python - лучший язык программирования в мире.