Хорошее, Плохое и Уродливое в pd.read_html
Полезное, Вредное и Уродливое в pd.read_html
Это для неосведомленного поклонника pd.read_html
Спишись. 🐴 Пора взглянуть на науку о данных с помощью видеоигр Good, Bad и Ugly.
Если вы еще не являетесь поклонником pd.read_html()
или его кузена pd.to_html()
. . . вы упускаете многое. И если вы дадите мне шанс, я смогу вас убедить в этом в конце этой статьи.
В этой статье сначала я покажу краткую демонстрацию pd.read_html()
, а затем рассмотрю его преимущества (хорошее), недостатки и ограничения (плохое) и особенности (уродливое).
![Кредит за изображение: создано автором с помощью текста на изображении Canva. 🤠 🐼](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*yLVWj6duG3lYt1_0c6DhkQ.png)
Вкратце, pd.read_html()
позволяет вам получить, всего за одну строку кода, все таблицы в HTML-документе. Если вы не впечатлены, я убежден, что вы еще не полностью осознали все возможности и последствия здесь.
- Полное руководство по ZenML для начинающих, упрощающее MLOps
- Как вообще мы можем оценить сгенерированные изображения с помощью GAN?
- Стратегическая игра AMD приобретение Nod.ai для вызова доминирования Nvidia
Эта таблица в Википедии показывает информацию о многих из 10 000 озер в Миннесоте.
![Кредит за изображение: Снимок экрана из Википедии. Заслуга Википедии и ее участников, которые делятся информацией в соответствии с лицензией Creative Commons. Оригинал: Список озер Миннесоты.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*YolzM8QBpEP2_oFqQBNltA.png)
С точки зрения управления данными, эта таблица вызывает проблемы. Здесь девять столбцов. Однако крайние правые столбцы иногда заполнены, а иногда нет. Когда они не заполнены, некоторые из этих столбцов справа объединены, а иногда нет. Конфигурации неоднозначны, что вызывает проблемы.
В качестве демонстрации проблемы вы можете дома выделить шесть строк, показанных выше. Затем скопируйте их и вставьте в электронную таблицу для получения этого уродливого, нечитаемого и бесполезного результата.
![Кредит за изображение: снимок экрана автора с использованием описанной здесь процедуры.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*b6U0X0yc1vwTAPtEqOuOkw.png)
В противном случае, рассмотрите результат для одной строки кода:
pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]
Может быть несовершенным, но он возвращает намного более читаемый и полезный результат.
![Кредит за изображение: снимок экрана автора, созданный с помощью показанного здесь кода.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*c1gX7oT6g-tgK2K1qwYjzw.png)