Хорошее, Плохое и Уродливое в pd.read_html

Полезное, Вредное и Уродливое в pd.read_html

Это для неосведомленного поклонника pd.read_html

Спишись. 🐴 Пора взглянуть на науку о данных с помощью видеоигр Good, Bad и Ugly.

Если вы еще не являетесь поклонником pd.read_html() или его кузена pd.to_html() . . . вы упускаете многое. И если вы дадите мне шанс, я смогу вас убедить в этом в конце этой статьи.

В этой статье сначала я покажу краткую демонстрацию pd.read_html(), а затем рассмотрю его преимущества (хорошее), недостатки и ограничения (плохое) и особенности (уродливое).

Кредит за изображение: создано автором с помощью текста на изображении Canva. 🤠 🐼

Вкратце, pd.read_html() позволяет вам получить, всего за одну строку кода, все таблицы в HTML-документе. Если вы не впечатлены, я убежден, что вы еще не полностью осознали все возможности и последствия здесь.

Эта таблица в Википедии показывает информацию о многих из 10 000 озер в Миннесоте.

Кредит за изображение: Снимок экрана из Википедии. Заслуга Википедии и ее участников, которые делятся информацией в соответствии с лицензией Creative Commons. Оригинал: Список озер Миннесоты.

С точки зрения управления данными, эта таблица вызывает проблемы. Здесь девять столбцов. Однако крайние правые столбцы иногда заполнены, а иногда нет. Когда они не заполнены, некоторые из этих столбцов справа объединены, а иногда нет. Конфигурации неоднозначны, что вызывает проблемы.

В качестве демонстрации проблемы вы можете дома выделить шесть строк, показанных выше. Затем скопируйте их и вставьте в электронную таблицу для получения этого уродливого, нечитаемого и бесполезного результата.

Кредит за изображение: снимок экрана автора с использованием описанной здесь процедуры.

В противном случае, рассмотрите результат для одной строки кода:

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

Может быть несовершенным, но он возвращает намного более читаемый и полезный результат.

Кредит за изображение: снимок экрана автора, созданный с помощью показанного здесь кода.

Достоинства (хорошие стороны)