Tag: gzip

Как сохранить базу данных pandas в формате gzipped напрямую?

У меня есть кадр данных pandas, называемый df . Я хочу сохранить это в формате gzipped. Один из способов сделать это: import gzip import pandas df.save('filename.pickle') f_in = open('filename.pickle', 'rb') f_out = gzip.open('filename.pickle.gz', 'wb') f_out.writelines(f_in) f_in.close() f_out.close() Однако для этого требуется сначала создать файл с именем filename.pickle . Есть ли способ сделать это более прямо, […]

Как gzip при загрузке в s3 с помощью boto

У меня большой локальный файл. Я хочу загрузить gzipped версию этого файла в S3, используя библиотеку boto . Файл слишком большой, чтобы эффективно загружать его на диск перед загрузкой, поэтому при загрузке он должен быть gzipped потоковым способом. Библиотека set_contents_from_file() знает функцию set_contents_from_file() которая ожидает файл-подобный объект, который он будет читать. Библиотека gzip знает класс […]

Могут ли mmap и gzip сотрудничать?

Я пытаюсь понять, как использовать mmap с сжатым файлом gzip. Возможно ли это? import mmap import os import gzip filename = r'C: \ temp \ data.gz ' file = gzip.open (имя файла, «rb +») size = os.path.getsize (имя файла) file = mmap.mmap (file.fileno (), размер) print file.read (8) Выходные данные сжимаются.

Как работают кодеки сжатия в Python?

Я запрашиваю базу данных и архивирую результаты с помощью Python, и я пытаюсь сжать данные, когда я пишу их в файлы журнала. Однако у меня проблемы с этим. Мой код выглядит так: log_file = codecs.open(archive_file, 'w', 'bz2') for id, f1, f2, f3 in cursor: log_file.write('%s %s %s %s\n' % (id, f1 or 'NULL', f2 or […]

Включение сжатия на Heroku с использованием python

Google теперь наказывает из-за того, что он не является мобильным. Поэтому, чтобы улучшить ситуацию, я рекомендую сжать много моего Javascript с помощью Gzip или Deflate. Я видел некоторые старые рекомендации по переполнению стека, но ничего не стоит из коробки, и я пробовал искать дополнения, но пока нет ничего, что могло бы сделать трюк. Что является […]

Как сериализовать / десериализовать Pandas DataFrame в и из ProtoBuf / Gzip в приложении RESTful Flask?

У меня есть pandas dataframe который будет возвращен в качестве объекта Flask Response в flask приложении. В настоящее время я конвертирую его в объект JSON Object , df = df.to_json() return Response(df, status=200, mimetype='application/json') Размер dataframe действительно огромен от величины, вероятно, 5000000 X 10. На стороне клиента, когда я десериализую его как, df = response.read_json() […]

Python Gzip – добавление к файлу на лету

Можно ли добавить в текстовый файл gzipped на лету с помощью Python? В основном я это делаю: import gzip content = "Lots of content here" f = gzip.open('file.txt.gz', 'a', 9) f.write(content) f.close() Строка добавляется (примечание «прилагается») к файлу каждые 6 секунд или около того, но полученный файл такой же большой, как стандартный несжатый файл (примерно […]

Я хочу извлечь файл .tgz и извлечь все подкаталоги с файлами .tgz и .tar

Я использую приведенный ниже код для извлечения файлов .tgz . Тип файлов журнала ( .tgz ), которые мне нужно извлечь, содержит подкаталоги, в которых есть другие файлы .tgz и .tar . Я тоже хочу их извлечь. В конечном счете, я пытаюсь найти определенные строки во всех файлах .log и .txt файлах, которые могут отображаться в […]

Как проверить пустой файл gzip в Python

Я не хочу использовать команды ОС, поскольку это зависит от ОС. Это доступно в tarfile , tarfile.is_tarfile(filename) , чтобы проверить, является ли файл tar-файлом или нет. Я не могу найти соответствующие команды в модуле gzip . EDIT : Зачем мне это нужно: у меня есть список файлов gzip, они различаются по размерам (1-10 ГБ), а […]

Более чистый способ читать / gunzip огромный файл в python

Поэтому у меня есть довольно гигантские .gz-файлы – мы говорим от 10 до 20 gb каждый при распаковке. Мне нужно прокручивать каждую строку из них, поэтому я использую стандарт: import gzip f = gzip.open(path+myFile, 'r') for line in f.readlines(): #(yadda yadda) f.close() Однако команды open() и close() принимают AGES, используя 98% памяти + CPU. Настолько, […]

Python - лучший язык программирования в мире.