Tag: pytables

Как хранить широкие таблицы в pytables / hdf5

У меня есть данные, поступающие из csv, который содержит несколько тысяч столбцов и десять тысяч (или около того) строк. Внутри каждого столбца данные одного типа, но разные столбцы имеют данные разного типа *. Раньше я собирал данные из numpy и сохранял их на диске, но это довольно медленно, особенно потому, что обычно я хочу загрузить […]

PyTables, занимающиеся данными с размером, во много раз превышающим размер памяти

Я пытаюсь понять, как PyTables управляет данными, размер которых больше, чем размер памяти. Вот комментарий в коде PyTables ( ссылка на GitHub ): # Nodes referenced by a variable are kept in `_aliveNodes`. # When they are no longer referenced, they move themselves # to `_deadNodes`, where they are kept until they are referenced again […]

Эффективный способ ввода больших растровых данных в PyTables

Я ищу эффективный способ загрузить файл растровых данных (GeoTiff) размером 20 ГБ в PyTables для дальнейшего вычисления. В настоящее время я читаю его как массив numpy с использованием Gdal и записываю массив numpy в pytables, используя следующий код: import gdal, numpy as np, tables as tb inraster = gdal.Open('infile.tif').ReadAsArray().astype(np.float32) f = tb.openFile('myhdf.h5','w') dataset = f.createCArray(f.root, […]

Чтение большой таблицы с миллионами строк из Oracle и запись на HDF5

Я работаю с базой данных Oracle с миллионами строк и более 100 столбцов. Я пытаюсь сохранить эти данные в файле HDF5, используя pytables с индексированными столбцами. Я буду читать подмножества этих данных в pandas DataFrame и выполнять вычисления. Я попытался сделать следующее: Загрузите таблицу, используя утилиту в файл csv, прочитайте кусок файла csv куском с […]

'/' в именах в файловой системе HDF5

Я испытываю некоторые действительно странные взаимодействия между h5py , PyTables (через Pandas ) и C ++ сгенерированными файлами HDF5 . Кажется, что h5check и h5py, похоже, справляются с именами типов, содержащими «/», но pandas / PyTables не могут. Ясно, что в моем понимании есть пробел, поэтому: Что я здесь не понял? Сведения о gory У […]

Разница между файлом HDF5 и файлом PyTables

Есть ли разница между файлами HDF5 и файлами, созданными PyTables ? PyTables имеет две функции .isHDFfile() и .isPyTablesFile() предполагающие разницу между .isPyTablesFile() двумя форматами. Я немного поглядел на Google и собрал, что PyTables построен поверх HDF, но я не смог найти много за этим. Меня особенно интересует интероперабельность, скорость и накладные расходы. Благодарю.

Исключение с плавающей точкой с помощью Numpy и PyTables

У меня есть довольно большой файл HDF5, созданный PyTables, который я пытаюсь прочитать в кластере. У меня проблема с NumPy, когда я читаю в отдельном куске. Перейдем к примеру: Общая форма массива внутри файла HDF5, In [13]: data.shape Out[13]: (21933063, 800, 3) Каждая запись в этом массиве – np.float64 . У меня каждый узел считывает […]

Python, PyTables, Java – связывание всех

Вопрос в двух словах Каков наилучший способ заставить Python и Java играть хорошо друг с другом? Более подробное объяснение У меня довольно сложная ситуация. Я постараюсь изо всех сил объяснить как на картинках, так и на словах. Вот текущая системная архитектура: Текущая архитектура системы http://i50.tinypic.com/2s6lutk.png У нас есть симуляция моделирования на основе агентов, написанная на […]

argsort в массиве PyTables

У меня проблема с argsort от NumPy. Он создает массив int64 длины входного массива в памяти. Поскольку я работаю с очень большими массивами, это взорвет память. Я тестировал argsort NumPy с небольшим массивом PyTables, и он дает правильный результат. Теперь я хочу, чтобы алгоритм сортировки работал с массивом PyTables напрямую. Есть ли способ сделать это […]

Pytables 2.3.1 с Python 2.5 в Windows: ошибка – не удалось найти локальную установку hdf5

Я пытаюсь установить PyTables 2.3.1 в Windows XP с Python 2.5. Я получаю следующую ошибку: Could not find a local HDF5 installation. You may need to explicitly state where your local HDF5 headers and library can be found by setting the HDF5_DIR environment variable or by using the –hdf5 command-line option. Я немного смущен установкой […]

Python - лучший язык программирования в мире.