Tag: hdfstore

Динамическое добавление к Pandas Dataframe

Я играл с Pandas, чтобы получить протоколы HTTP в Pandas для анализа, поскольку это хороший источник больших объемов данных и позволит мне узнать Pandas. Я получаю журналы в потоке в одну строку за раз и поэтому не может импортировать из CSV и нужно «перекачивать» их в Pandas DataFrame, после чего я сохраню файл HDFStore. Код, […]

Pandas HDFStore выбрать из вложенных столбцов

У меня есть следующий DataFrame, который хранится в объекте HDFStore как frame_table, называемый данными: shipmentid qty catid 1 2 3 4 5 0 0 0 0 0 0 0 1 1 0 0 0 2 0 2 2 2 0 0 0 0 3 3 0 4 0 0 0 0 0 0 0 0 […]

Как эффективно перестроить таблицу pandas hdfstore при добавлении сбоя

Я работаю над использованием hdfstore в pandas для кадров данных из текущего итеративного процесса. На каждой итерации я добавляю к столу в hdfstore. Вот пример игрушки: import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string import ascii_letters alphanum=np.array(list(ascii_letters)+range(0,9)) def hdfstore_append(storefile,key,df,format="t",columns=None,data_columns=None): if df is None: return if […]

Получать выводимые типы данных, итеративно, используя chunksize

Как я могу использовать pd.read_csv () для итеративного фрагмента через файл и сохранять dtype и другую метаинформацию, как если бы я сразу читал весь набор данных? Мне нужно прочитать в наборе данных, который слишком велик, чтобы вписаться в память. Я хотел бы импортировать файл с помощью pd.read_csv, а затем сразу добавить кусок в HDFStore. Однако […]

HDFStore: table.select и использование ОЗУ

Я пытаюсь выбрать случайные строки из таблицы HDFStore около 1 ГБ. Использование RAM взрывается, когда я запрашиваю около 50 случайных строк. Я использую pandas 0-11-dev, python 2.7, linux64 . В этом первом случае использование ОЗУ соответствует размеру chunk with pd.get_store("train.h5",'r') as train: for chunk in train.select('train',chunksize=50): pass В этом втором случае кажется, что вся таблица […]

Python - лучший язык программирования в мире.