Pandas dataframe read_csv по плохим данным

Я хочу читать в очень большом csv (невозможно открыть в excel и редактировать легко), но где-то около 100 000-й строки, есть строка с одним дополнительным столбцом, вызывающим сбой программы. Эта строка ошибочна, поэтому мне нужен способ игнорировать тот факт, что это дополнительный столбец. Существует около 50 столбцов, поэтому жесткое кодирование заголовков и использование имен или сокращений не является предпочтительным. Я также, возможно, столкнусь с этой проблемой в других csv и хочу получить общее решение. К сожалению, я не нашел ничего в read_csv. Код такой же простой, как это:

def loadCSV(filePath): dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000) datakeys = dataframe.keys(); return dataframe, datakeys 

  • Multiindex pandas groupby + aggregate, сохранить полный индекс
  • Преобразование Python dict в фреймворк данных
  • Pandas: Элементарное умножение двух кадров данных
  • pandas fillna не работает
  • Dataframe в массив numpy со значениями, разделенными запятыми
  • Pandas groupby: Как получить объединение строк
  • Как преобразовать столбец с dtype в качестве объекта в строку в Pandas Dataframe
  • Pandon pandas: исключить строки ниже определенного числа
  • One Solution collect form web for “Pandas dataframe read_csv по плохим данным”

    pass error_bad_lines=False чтобы пропустить ошибочные строки:

    error_bad_lines: boolean, по умолчанию True Линии со слишком большим количеством полей (например, строка csv со слишком большим количеством запятых) будут по умолчанию вызывать исключение, и DataFrame не будет возвращен. Если False, то эти «плохие строки» будут удалены из возвращаемого DataFrame. (Действителен только с C-парсером)

    Interesting Posts
    Python - лучший язык программирования в мире.