Tag: pandas

python statsmodel: tukey HSD plot не работает

Попытка выяснить, как вычислить HSD Tukey с помощью statsmodel . Я мог бы заставить его работать, и результаты выглядят великолепно, но есть график различий в средствах, которые я не вижу. Должно быть, что-то глупое я делаю. Это метод plot_simultaneous из объекта TukeyHSDResults (см. TukeyHSDResults ). Это код, который я использую, чтобы попробовать: import pandas as […]

Python Pandas Summing Up Score, если описание содержит фразу в списке

У меня длинный список (200 000+) фраз: phrase_list = ['some word', 'another example', …] И двухканал pandas dataframe с описанием в первом столбце и некоторым количеством баллов во втором Description Score this sentence contains some word in it 6 some word is on my mind 3 repeat another example of me 2 this sentence has […]

Как использовать python pandas для получения пересечения множеств из файла csv

У меня есть файл csv, в котором есть 4 столбца и 1200 строк. Значения в строках равны 1,0. 4 столбца = setA, setB, setC, setD Мне нужно найти все возможные n(setA==1), n(setB==1), n(setC==1), n(setD==1), n(setA==1 ∩ setB==1), n(setA==1 ∩ setB==1 ∩ setC==1) ……. В настоящее время я использую это, но его болезненное, трудоемкое и запутанное: […]

pandas: как форматировать ячейки после экспорта в Excel

Я экспортирую некоторые фреймы данных pandas в Excel: df.to_excel(writer, sheet) wb = writer.book ws = writer.sheets[sheet] ws.write(1, 4, "DataFrame contains …") writer.save() Я понимаю, что я могу использовать класс format: http://xlsxwriter.readthedocs.org/format.html для форматирования ячеек, когда я пишу их в Excel. Однако я не могу найти способ применить стиль форматирования после того, как ячейки уже были […]

Функция запроса Pandas с подвыражениями, которые не включают имя столбца

У меня возникают проблемы с функцией запроса pandas, где подвыражения не включают ни один из столбцов фрейма. Я ожидаю, что следующее даст [True, False] , но на самом деле он отвечает [False, True] : df = pd.DataFrame( {'col1':[1,0]} ) col1 0 1 1 0 external_var = 'yes' df.eval( '(@external_var == "yes") == col1' ) 0 […]

ЕСЛИ ELSE использует Numpy и Pandas

После поиска нескольких форумов по подобным вопросам выясняется, что один из способов быстро выполнить итерацию условного оператора – это использовать функцию np.where() в Pandas. У меня возникают проблемы со следующей задачей: У меня есть набор данных, который выглядит как несколько строк: PatientID Date1 Date2 ICD 1234 12/14/10 12/12/10 313.2, 414.2, 228.1 3213 8/2/10 9/5/12 232.1, […]

ошибка pandas, создающая TimeDeltas из операции Datetime

Я рассмотрел несколько других связанных вопросов здесь , здесь и здесь , и никто из них не сталкивался с той же проблемой, что и я. Я использую версию Pandas 0.16.2. У меня есть несколько столбцов в кадре данных Pandas, dtype datetime64 [ns]: In [6]: date_list = ["SubmittedDate","PolicyStartDate", "PaidUpDate", "MaturityDate", "DraftDate", "CurrentValuationDate", "DOB", "InForceDate"] In [11]: […]

Сумма прокачки Pandas с неравномерно распределенным индексом

У меня есть блок данных, содержащий еженедельные продажи для разных продуктов (a, b, c). Если в течение недели были нулевые продажи (например, неделя 4), на этой неделе нет записи: In[1] df = pd.DataFrame({'product': list('aaaabbbbcccc'), 'week': [1, 2, 3, 5, 1, 2, 3, 5, 1, 2, 3, 4], 'sales': np.power(2, range(12))}) Out[1] product sales week 0 […]

Форма, возвращаемая Pandas ValueError, не соответствует форме dataframe?

Мое понимание – pd.DataFrame().shape Возвращает pd.DataFrame().shape (n_rows, n_columns) . Однако при построении фрейма данных и индексов не совпадают с формой данных, pandas вызывает ValueError с формой как (n_columns, n_rows) . Пример: df_2 = pd.DataFrame(np.random.randn(10,2), index = range(9)) ValueError: Форма переданных значений (2, 10), индексы подразумевают (2, 9) Почему ValueError не печатает : Форма прошедших значений […]

Как перебирать два столбца в python?

Я пытаюсь выполнить итерацию через два столбца в файле csv с помощью python ?, Я слышал, что вам нужно импортировать pandas для этого, но я просто борюсь с частью кодирования. import csv as csv import numpy as np import pandas as pd csv_file_object = csv.reader(open('train.csv', 'rb')) # Load in the csv file header = csv_file_object.next() […]

Interesting Posts for Van-Lav

Миграция AppEngine

Многопроцессорность Python безопасно записывается в файл

Могу ли я использовать слабые ссылочные методы?

Компилятор Microsoft Visual C ++ для Python 2.7

Как найти все возможные последовательности элементов в списке?

В чем разница между Model.query и session.query (Model) в SQLAlchemy?

Доступ к элементу <li> без идентификатора класса с использованием Beautiful soup

разрезать части видео с помощью gstreamer / Python (gnonlin?)

Ошибка изображения модуля C в python PIL

Обработка огромного файла (9,1 ГБ) и его обработка быстрее – Python

python: библиотека для обобщенных деревьев суффиксов

Синхронизация дат со свободного ввода текста в Python

Почему имя содержащего класса не распознается как аннотация функции возвращаемого значения?

ProgrammingError: (1146, «Таблица» test_ <DB>. <TABLE> «не существует») при запуске модульного теста для Django

pandas получают среднее значение столбца / среднее значение

Python - лучший язык программирования в мире.