Pandas dataframe read_csv по плохим данным

Я хочу читать в очень большом csv (невозможно открыть в excel и редактировать легко), но где-то около 100 000-й строки, есть строка с одним дополнительным столбцом, вызывающим сбой программы. Эта строка ошибочна, поэтому мне нужен способ игнорировать тот факт, что это дополнительный столбец. Существует около 50 столбцов, поэтому жесткое кодирование заголовков и использование имен или сокращений не является предпочтительным. Я также, возможно, столкнусь с этой проблемой в других csv и хочу получить общее решение. К сожалению, я не нашел ничего в read_csv. Код такой же простой, как это:

def loadCSV(filePath): dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000) datakeys = dataframe.keys(); return dataframe, datakeys 

One Solution collect form web for “Pandas dataframe read_csv по плохим данным”

pass error_bad_lines=False чтобы пропустить ошибочные строки:

error_bad_lines: boolean, по умолчанию True Линии со слишком большим количеством полей (например, строка csv со слишком большим количеством запятых) будут по умолчанию вызывать исключение, и DataFrame не будет возвращен. Если False, то эти «плохие строки» будут удалены из возвращаемого DataFrame. (Действителен только с C-парсером)

Python - лучший язык программирования в мире.