Tag: pandas

Как я могу развернуть столбцы, содержащие несколько элементов?

У меня есть DataFrame, где один из столбцов представляет собой строковое представление set . Можно ли «развернуть» любые строки, подобные этому? Пример: ColA ColB ColC ColD 0 "one item in a set" "{'item 1'}" "…" "…" 1 "several in a set" "{'item 1', 'item 2'}" "…" "…" … Должно стать: ColA ColB ColC ColD 0 […]

Как быстро заполнить много данных, используя pandas fillna?

У меня два Dataframes один большой с большим количеством недостающих значений, а второй с данными для заполнения отсутствующих данных в первом. Примеры данных: In[34]: import pandas as pd import numpy as np df2 = pd.DataFrame({'A': [1, 1, 1, 2, 2, 2], 'B': [1, 0, 1, 1, 0, 0]}) df = pd.DataFrame({'A': [0, 1, 2, 3, […]

numpy отрезать массив без копирования

У меня есть большие данные в матрице x и мне нужно проанализировать некоторые подматрицы. Я использую следующий код для выбора подматрицы: >>> import numpy as np >>> x = np.random.normal(0,1,(20,2)) >>> x array([[-1.03266826, 0.04646684], [ 0.05898304, 0.31834926], [-0.1916809 , -0.97929025], [-0.48837085, -0.62295003], [-0.50731017, 0.50305894], [ 0.06457385, -0.10670002], [-0.72573604, 1.10026385], [-0.90893845, 0.99827162], [ 0.20714399, -0.56965615], [ […]

График DataFrame в реальном времени

У меня есть pandas DataFrame, который обновляется в цикле while, и я хотел бы построить это в режиме реального времени, но, к сожалению, я не понял, как это сделать. Код samplae может быть: import numpy as np from matplotlib import pyplot as plt from matplotlib import animation import time as tm from datetime import datetime, […]

DataConversionПоддержка RandomForestRegressor в Scikit

Я пытаюсь установить RandomForestRegressor на свой тренировочный набор, rfr.fit(train_X , train_y) но продолжайте получать следующее предупреждение: /usr/local/lib/python2.7/dist-packages/IPython/kernel/ main .py: 1: DataConversionWarning: вектор-столбец y был передан, когда ожидался 1d-массив. Измените форму y на (n_samples), например, используя ravel (). если имя == ' main ': Я использую Pandas и поэтому предполагаю, что набор для обучения может потребоваться […]

Создайте csv-файл с заголовком метаданных, за которым следуют тайм-ауты в Python / Pandas

Я пытаюсь создать файл csv, содержащий метаданные в первых нескольких строках, за которыми следуют временные данные, поэтому он может быть обработан другим веб-приложением. Мой файл csv должен выглядеть так: Code: ABC1 Frequency: Monthly Description: Blah Blah ——————- 2/1/1947 11.7 3/1/1947 11.9 Я могу создать CSV-файл метаданных: metadata=pd.Series([('code: ABC123'),('freqency: monthly'),('description: describecode'),('——–')]) metadata.to_csv("metadata.csv",index=False) Я могу создать csv […]

Pandon pandas: слияние теряет категориальные столбцы

Я работаю с большими DataFrames категориальных данных, и я обнаружил, что когда я использую pandas.merge на двух фреймах данных, любые столбцы категориальных данных автоматически повышаются до более высокого типа данных. (Это может значительно увеличить потребление ОЗУ.) Простой пример для иллюстрации: EDIT: сделал более подходящий пример import pandas import numpy df1 = pandas.DataFrame( {'ID': [5, 3, […]

Разделить морскую матрицу по линиям в соответствии с кластеризацией

Эта статья имеет хороший способ визуализации кластеров набора данных с бинарными функциями путем построения 2D-матрицы и сортировки значений в соответствии с кластером. В этом случае имеется три кластера, о чем свидетельствуют черные разделительные линии; строки сортируются и показывают, какие примеры указаны в каждом кластере, а столбцы – это функции каждого примера. Учитывая вектор назначения кластеров […]

Использование fillna, downcast и панд

Я искал что-то, что помогло мне понять аргумент ключевого слова downcast в методе класса DataFrame.fillna . Просьба привести пример, который поможет облегчить обучение моих и всех: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html Также, если вы можете сказать слово или два о настройке типа в столбце по столбцам с NoneType значений NaN или даже NoneType в столбце и как обращаться с […]

Обеспечение типа группового вывода

Рассмотрим этот пример: import pandas as pd import numpy as np foo = pd.DataFrame(dict(letter=['a', 'a', 'a', 'b', 'b', 'b', 'a', 'b'], number=[1,1,2,2,3,np.nan, np.nan,4])) grouped = foo.groupby(foo.number) print grouped['letter'].transform(lambda x: sum(x=='a')) Out[18]: 0 2 1 2 2 1 3 1 4 0 5 b 6 a 7 0 Вместо отображения 1 в строках 5 и 6 […]

Interesting Posts for Van-Lav

Ссылка на Blobs в GAE на ум

Как получить доступ к элементам numpy ndarray?

Что такое __future__ в Python, который используется и как / когда его использовать, и как он работает

Как индексировать вложенные списки в Python?

Включение строки со встроенными скобками в словарь

Python – найти элемент с максимальными вхождениями в список

Как генерировать кортежи (оригинальная метка, предсказанная метка) на Spark с MLlib?

замените строку, если длина меньше x

Как закрыть окно Toplevel после завершения функции, которую он вызывает?

Python: как создать словарь из файла свойств при отсутствии комментариев

Создание ежемесячных временных рядов с произвольными датами начала

Вычисление ошибок в базах данных с использованием Seaborn FacetGrid

Могу ли я использовать открытый файл gzip с Popen в Python?

Операторы сопоставления карт для вызова функции

Проблема сокета при использовании потоков

Python - лучший язык программирования в мире.