Tag: csv

Ускорение обработки светом файла CSV размером ~ 50 ГБ

У меня есть файл csv размером 50 ГБ, с которым я должен Возьмите несколько подмножеств столбцов CSV Примените другую спецификацию строки формата к каждому подмножеству столбцов CSV. Выведите новый CSV для каждого подмножества с его собственной спецификацией формата. Я решил использовать Pandas и имел общий подход к итерации над кусками удобного размера куска (всего более […]

Ошибка при чтении csv-файла в pandas

Поэтому я попытался прочитать все файлы csv из папки, а затем объединить их для создания большого csv (структура всех файлов была такой же), сохраните его и прочитайте снова. Все это было сделано с помощью Панды. Ошибка при чтении. Я присоединяю код и ошибку ниже. import pandas as pd import numpy as np import glob path […]

CSV Exports – упорядочение столбцов с помощью scraw crawl -o output.csv

Есть ли способ указать порядок столбцов в выводе CSV с использованием параметра -o? Кажется, что он соответствует случайному порядку и не соответствует порядку в файле items.py или когда поля элемента заполняются на скретче. Благодаря!

написать в csv из Python-файлов DataFrame

Я написал программу, в которой я добавляю два столбца и пишу ответ в CSV-файл, но я получаю ошибку, когда хочу писать только выбор столбцов. вот моя логика: import pandas as pd df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar'], 'B' : ['one', 'one', 'two', 'two', 'two', 'two', 'one', 'two'], 'C' : […]

Удаление строк с помощью Python в CSV-файле

Все, что я хотел бы сделать, это удалить строку, если она имеет значение «0» в третьем столбце. Примером данных может быть что-то вроде: 6.5, 5.4, 0, 320 6.5, 5.4, 1, 320 Поэтому первая строка должна быть удалена, а вторая останется. До сих пор я имею в виду следующее: import csv input = open('first.csv', 'rb') output […]

Смешанные типы при чтении файлов csv. Причины, исправления и последствия

Что именно происходит, когда Pandas выдает это предупреждение? Должен ли я беспокоиться об этом? In [1]: read_csv(path_to_my_file) /Users/josh/anaconda/envs/py3k/lib/python3.3/site-packages/pandas/io/parsers.py:1139: DtypeWarning: Columns (4,13,29,51,56,57,58,63,87,96) have mixed types. Specify dtype option on import or set low_memory=False. data = self._reader.read(nrows) Я предполагаю, что это означает, что Pandas не может вывести тип из значений в этих столбцах. Но если это так, […]

Как написать серию pandas в CSV как строку, а не как столбец?

Мне нужно написать объект pandas.Series в CSV-файл как строку, а не как столбец. Просто делать the_series.to_csv( 'file.csv' ) дает мне такой файл: record_id,2013-02-07 column_a,7.0 column_b,5.0 column_c,6.0 Вместо этого мне нужно: record_id,column_a,column_b,column_c 2013-02-07,7.0,5.0,6.0 Это необходимо для работы с pandas 0.10, поэтому использование the_series.to_frame().transpose() не является опцией. Есть ли простой способ либо транспонировать серию, либо иначе получить […]

has_header из csv.Sniffer дает разные результаты для файлов с одинаковой компоновкой

У меня есть следующий фрагмент кода: import csv def has_header(first_lines): sniffer = csv.Sniffer() return sniffer.has_header(first_lines) Где first_lines – первые 2048 байт файла. Функция работает хорошо большую часть времени и возвращает True для файла, который начинается следующим образом: SPEC#: 1, SIZE: 18473, TIME: 0.000000 1998.304312 2.15686 1998.773585 3.13725 1999.242914 3.13725 1999.712298 2.7451 2000.181736 2.94118 2000.651230 2.94118 […]

2.7 CSV-модуль хочет unicode, но не хочет unicode

csvfile_ = open(finishedFileName+num+".csv","w",newline='') writ = csv.writer(csvfile_, dialect='excel') firstline = unicode(str(firstline)) try: writ.writerow(firstline) except TypeError: print firstline print type(firstline) raise Я получаю TypeError: must be unicode, not str с этим кодом. При печати типа первой строки я вижу <type 'unicode'> . Когда я печатаю первую строку, я вижу ['project_number', 'project_location'] (Список длиннее этого, но он продолжается […]

Сохранение порядка столбцов в методе pandas to_csv

Метод to_csv pandas не сохраняет порядок столбцов. Он выбирает в алфавитном порядке расположение столбцов в CSV. Это ошибка, о которой сообщается и должна быть исправлена ​​в версии 0.11.0. У меня 0.18.0. import pandas as pd df = pd.DataFrame({'V_pod_error' : [a], 'V_pod_used' : [b], 'U_sol_type' : [c] … … and so on upto 50 columns } […]

Python - лучший язык программирования в мире.