который быстрее загружается: pickle или hdf5 в python

Данный список представляет собой 1,5-гигабайтный список данных для панд.

Мне интересно, какой из них лучше подходит для загрузки этих данных: pickle (через cPickle), hdf5 или что-то еще в python?

Во-первых, «демпинг» данных в порядке, чтобы занять много времени, я делаю это только один раз.

Я также не занимаюсь размером файла на диске.

Вопрос: Меня волнует скорость загрузки данных в память как можно быстрее.

One Solution collect form web for “который быстрее загружается: pickle или hdf5 в python”

Я бы рассмотрел только два формата хранения: HDF5 (PyTables) и Feather

Вот результаты моего сравнения чтения и записи для DF (форма: 4000000 x 6, размер в памяти 183,1 МБ, размер несжатого CSV – 492 МБ).

Сравнение для следующих форматов хранения: ( CSV , CSV.gzip , Pickle , HDF5 [различное сжатие]):

  read_s write_s size_ratio_to_CSV storage CSV 17.900 69.00 1.000 CSV.gzip 18.900 186.00 0.047 Pickle 0.173 1.77 0.374 HDF_fixed 0.196 2.03 0.435 HDF_tab 0.230 2.60 0.437 HDF_tab_zlib_c5 0.845 5.44 0.035 HDF_tab_zlib_c9 0.860 5.95 0.035 HDF_tab_bzip2_c5 2.500 36.50 0.011 HDF_tab_bzip2_c9 2.500 36.50 0.011 

Но для вас это может быть иначе, потому что все мои данные относятся к datetime dtype, поэтому всегда лучше делать такое сравнение с вашими реальными данными или, по крайней мере, с аналогичными данными …

  • Блокнот Jupyter (IPython) не строит
  • Pandas: фильтрация DataFrame с использованием groupby и функции
  • Python Pandas: как добавить абсолютно новый столбец в фрейм данных внутри операции groupby / transform
  • заменить строку в pandas dataframe
  • Устанавливать различия в столбцах между кадрами данных
  • указав «пропустить NA» при вычислении среднего значения столбца в фрейме данных, создаваемом Pandas
  • Найдите имя столбца, которое имеет максимальное значение для каждой строки
  • PANDA создают столбец с возрастающим значением в группе.
  •  
    Interesting Posts for Van-Lav

    Хранение вычисленных значений в объекте

    Динамический выбор класса для наследования

    В PyCharm есть несколько курсорных функций?

    Выражение степени сложности матрицы дает отрицательное значение

    Какой самый питоновский способ идентифицировать последовательные дубликаты в списке?

    почему преобразование длинного 2D-списка в массив numpy так медленно?

    Использование импорта и цикла for при передаче программы в виде строки в Python

    Изображение обложки Opencv Python с использованием массива Numpy

    Назначение вывода переменной os.system переменной и предотвращение ее отображения на экране

    Cython: ошибка добавления комплекса в double

    Тензорный поток: как изменить значение в тензоре

    python получает значения словаря в списках

    Как добавить фоновое изображение в pygame?

    Переопределение потоков python.Thread.run ()

    python получает переменное имя аргумента в функции

    Python - лучший язык программирования в мире.