Tag: pandas

Python Pandas: объект 'numpy.ndarray' не имеет атрибута 'apply'

У меня есть dataframe, из которого я выбрал уникальные значения, и это привело к ndarray («unManager») формы (1187,) … всего один столбец. Теперь я написал функцию для группировки ряда строк данных, выполнения вычислений и добавления значений в ndarray. Я использую для этого приложение ndarray («unManager»), и я получаю следующую ошибку: AttributeError Traceback (most recent call […]

гистограмма не работает должным образом на объекте pandas groupby

Я пытаюсь использовать встроенные методы построения объектов pandas dataframe, но у меня возникают проблемы с groupby. Обратите внимание на следующее: этот первый раздел кода работает так, как ожидалось. df = pd.DataFrame(np.random.randn(100,3), columns=['A', 'B', 'C']) df['D'] = np.random.randint(0, 3, len(df)) df.A.plot(kind='hist', histtype='stepfilled') Теперь посмотрим, что произойдет, когда я попробую с помощью объекта groupby dfg = df.groupby('D') […]

Сравнение больших (~ 40 ГБ) текстовых данных с использованием Pandas или альтернативного подхода

У меня есть большое количество данных csv, размером около 40 ГБ, которые мне нужно обработать (давайте назовем это «телом»). Данные в каждом файле в этом теле состоят из файлов CSV с одним столбцом. Каждая строка – это ключевое слово, состоящее из слов и коротких предложений, например Dog Feeding cat used cars in Brighton trips to […]

FutureWarning: элементарное сравнение не удалось; вместо этого возвращает скаляр

Я получаю предупреждение, и я хочу проверить, не сломается ли это. Я использую np.where, как это во многих случаях (для меня это похоже на оператор if в excel). Есть ли лучший или более питонический или пандский способ сделать это? Я пытаюсь превратить одно измерение во что-то, с чем я могу легко выполнять математические операции. df['closed_item'] […]

Комплексные временные операции в Пандах

Ниже приведен небольшой пример моего очень большого кадра данных: In [38]: df Out[38]: Send_Customer Pay_Customer Send_Time 0 1000000000284044644 1000000000251680999 2016-08-01 09:55:48 1 2000000000223021617 1000000000190078650 2016-08-01 02:44:23 2 2000000000289301033 1000000000309048473 2016-08-01 09:20:14 3 1000000000333893941 1000000000333956151 2016-08-01 09:20:14 4 1000000000340371553 2000000000103942022 2016-08-01 09:20:14 5 2000000000098132192 2000000000089264458 2016-08-01 09:21:27 6 1000000000007716594 2000000000144437513 2016-08-01 09:20:54 7 1000000000135884145 1000000000278399847 2016-08-01 […]

Как установить пакеты / модули в IronPython

Я новичок в IronPython. Спасибо за помощь и терпение. Я установил IronPython 2.7 из http://ironpython.net/ в Visual Studio 2015. Я также установил Python 2.7.6 и anaconda. Я попробовал следующее решение, и оно не сработало. Установка пакетов Python – IronPython Мне интересно, могут ли IronPython использовать модули, установленные anaconda напрямую? Пакеты, которые я пытался установить, это […]

Поиск дубликатов, соответствующих определенным условиям в python

Ниже приведены примеры данных, над которыми я работаю. sender receiver date id salman akhtar 20161201 1111 akhtar salman 20161201 1112 nabeel ahmed 20161201 1113 salman akhtar 20161201 1114 salman akhtar 20161202 1115 nabeel ahmed 20161202 1116 ahmed nabeel 20161202 1117 nabeel ahmed 20161202 1118 nabeel ahmed 20161202 1119 То, что я пытаюсь достичь, состоит в […]

Как определить, какие столбцы следует устанавливать как индекс в Pandas DataFrame?

Допустим, у меня есть DataFrame финансовых ценных бумаг, которые часто имеют несколько идентификаторов: Должен ли я выбирать только один столбец для установки в качестве индекса? Должен ли я устанавливать все потенциальные идентификаторы в качестве индекса? Должен ли я установить все текстовые данные в качестве индекса и оставить все числовые данные в виде столбцов? Какова наилучшая […]

python pandas новая строка, прикрепленная к последней в csv при использовании to_csv в режиме добавления

Я пытаюсь добавить новую строку к данным в файле csv. Пока данные добавляются, вместо того, чтобы вставляться в следующую строку, он добавляется в конец предыдущей строки. В настоящее время мой код проблемы выглядит так: qlist = list(data) entries = [response, 0,0,0,0] df = pd.DataFrame([entries], columns=qlist) df.to_csv('data.csv', index=False, header=False, mode='a') Когда это выполняется, переменная «response» заканчивается […]

Панды: не удается выполнить запрос

Когда я пытаюсь выполнить запрос к объекту data-frame, произойдет следующее: df2.query('a==1') .conda/envs/myenv2/lib/python2.7/site-packages/pandas/computation/align.pyc in _align_core(terms) 96 reindexer_size = len(reindexer) 97 —> 98 ordm = np.log10(abs(reindexer_size – term_axis_size)) 99 if ordm >= 1 and reindexer_size >= 10000: 100 warnings.warn('Alignment difference on axis {0} is larger ' FloatingPointError: divide by zero encountered in log10 Вот как выглядит мой […]

Python - лучший язык программирования в мире.