Tag: csv

Тип данных Распознавание / Угадание данных CSV в python

Моя проблема заключается в обработке данных из больших файлов CSV. Я ищу наиболее эффективный способ определить (то есть догадываться) тип данных столбца на основе значений, найденных в этом столбце. Я потенциально имею дело с очень грязными данными. Следовательно, алгоритм должен быть в некоторой степени устойчивым к ошибкам. Вот пример: arr1 = ['0.83', '-0.26', '-', '0.23', […]

Pandas read_csv ожидает неправильное количество столбцов, с рваным файлом csv

У меня есть файл csv, который содержит несколько сотен строк и 26 столбцов, но последние несколько столбцов имеют только значение в нескольких строках, и они находятся к середине или концу файла. Когда я пытаюсь прочитать его при использовании read_csv (), я получаю следующую ошибку. «ValueError: ожидая 23 столбца, получил 26 в строке 64» Я не […]

Python: ключи по умолчанию, чтобы избежать KeyError

Довольно новый для python, начинающий разработчик, первый вызов Я вызываю некоторый JSON и разбираю соответствующие данные как csv. Я не могу понять, как заполнить промежуточный файл json Dict ключами по умолчанию, так как многие из них не заполнены. Результатом является KeyError, когда я пытаюсь разобрать содержимое в csv. Хотел бы любой совет! Благодарю. Обновление: спасибо […]

Ошибка модуля csv python

Когда я использую модуль csv Pythons, он показывает мне "delimiter" must be an 1-character string" Мой код похож на этот sep = "," srcdata = cStringIO.StringIO(wdata[1]) data = csv.reader(srcdata, delimiter=sep) wdata[1] является источником строки. Как исправить эту проблему?

Как читать CSV без первого столбца

Я пытаюсь прочитать простой CSV-файл, как показано ниже, и поместить его содержимое в 2D-массив: "","x","y","sim1","sim2","sim3","sim4","sim5","sim6","sim7","sim8","sim9","sim10","sim11","sim12" "1",181180,333740,5.56588745117188,6.29487752914429,7.4835410118103,5.75873327255249,6.62183284759521,5.81478500366211,4.85671949386597,5.90418815612793,6.32611751556396,6.99649047851562,6.52076387405396,5.68944215774536 "2",181140,333700,6.36264753341675,6.5217604637146,6.16843748092651,5.55328798294067,7.00429201126099,6.43625402450562,6.17744159698486,6.72836923599243,6.38574266433716,6.81451606750488,6.68060827255249,6.14339065551758 "3",181180,333700,6.16541910171509,6.44704437255859,7.51744651794434,5.46270132064819,6.8890323638916,6.46842670440674,6.07698059082031,6.2140531539917,6.43774271011353,6.21923875808716,6.43355655670166,5.90692138671875 Для этого я использую это: data = np.loadtxt("Data/sim.csv", delimiter=',', skiprows=1) Но я всегда получал это сообщение: "ValueError: could not convert string to float: "1" Я думал, что проблема была в первом столбце каждой строки. Итак, я попытался […]

Можете ли вы загрузить на S3, используя поток, а не локальный файл?

Мне нужно создать CSV и загрузить его в ведро S3. Поскольку я создаю файл «на лету», было бы лучше, если бы я мог записать его непосредственно в ведро S3 по мере его создания, а не записывать весь файл локально, а затем загружать файл в конец. Есть ли способ сделать это? Мой проект находится в Python, […]

Проблема с пустым строками Csv с Excel

У меня есть файл csv, который содержит строки из базы данных sqlite3. Я написал строки в файл csv, используя python. Когда я открываю файл csv с помощью Ms Excel, пустая строка появляется под каждой строкой, но файл в блокноте в порядке (без пробелов). Кто-нибудь знает, почему это происходит и как я могу это исправить? Изменить: […]

CSV-модуль AttributeError

Поэтому я скопировал и вставил демо-версию из книги, которую я использую, чтобы узнать Python: #!/usr/bin/env python import csv total = 0 priciest = ('',0,0,0) r = csv.reader(open('purchases.csv')) for row in r: cost = float(row[1]) * float(row[2]) total += cost if cost == priciest[3]: priciest = row + [cost] print("You spent", total) print("Your priciest purchase was", […]

Чтение файла CSV в массив numpy, первая строка в виде строк, остальное как float

У меня есть данные, хранящиеся в CSV, где первая строка – это строки (имена столбцов), а остальные строки – это числа. Как сохранить это в массиве numpy? Все, что я могу найти, – это установить тип данных для столбцов, но не для строк. Сейчас я просто пропускаю заголовки, чтобы делать вычисления, но мне нужно иметь […]

Как написать полученный RDD в файл csv в Spark python

У меня есть результирующие labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions) . Это выводится в этом формате: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),…..] Я хочу создать CSV-файл с одним столбцом для labels (первая часть кортежа в выводе выше) и один для predictions (вторая часть вывода кортежа). Но я не знаю, как писать в CSV-файл в Spark с помощью Python. […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.