Очистка + подготовка данных о озерах Миннесоты

Очистка и подготовка данных о озерах Миннесоты все, что вам нужно знать

Как аккуратно оформить список озер Миннесоты на Википедии

В один прекрасный день, когда я водил машину, увидел прекрасный вид на озеро в своем родном городе. Оно известно как Озеро Меномин. Я сделал для вас здесь фотографию, чтобы насладиться ею.

Кредит за изображение: Авторская фотография центра города Меномони, штат Висконсин через озеро Меномин.

Затем мне пришла в голову мысль о том, что набор данных, состоящий из всех озер в Висконсине вместе с характеристиками озера, может быть интересным для создания руководства по кластеризации. После тщательного поиска я не нашел такого набора данных.

Но наш счастливый сосед на западе Висконсина – Миннесота. Говорят, что в Миннесоте насчитывается 10 000 озер. Предупреждение о спойлере: эту цифру 10 000 озер мы опровергнем в этой статье.

Эта статья – руководство, которое показывает процесс получения данных о озерах Миннесоты и их подготовки для анализа.

Получение данных

Я ранее писал о pd.read_html(), включая его преимущества (хорошо), его недостатки и ограничения (плохо) и его особенности (ужасно): Хорошее, Плохое и Ужасное в pd.read_html.

Здесь мы снова воспользуемся pd.read_html(), чтобы быстро и удобно получить основную таблицу в статье Википедии Список озер Миннесоты. Задача по получению и подготовке этих данных для аналитической работы также начинается с импорта стандартных пакетов. Также нам понадобится модуль регулярных выражений для некоторых дополнительных работ по очистке.

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport reweb = 'https://en.wikipedia.org/'          # Укажите базовый URLpath = 'wiki/List_of_lakes_of_Minnesota'   # Укажите путь URLtables = pd.read_html(web + path)          # Передайте URL в pd.read_html()df = tables[1]                             # Изолировать таблицу интересующих данных

Вышеприведенный код сначала указывает базовый URL и путь к статье Википедии. Затем путь передает этот URL и путь в pd.read_html(), который возвращает список таблиц. Наконец, квадратные скобки внутри списка tables изолируют основную таблицу интересующих данных (данные об озерах). Эти данные отображаются следующим образом:

Кредит за изображение: Скриншот автора. Создано с использованием показанного здесь кода.