Упрощение анализа исследовательских данных с помощью этих четырех (4) пакетов

Упрощение анализа данных с помощью 4 пакетов

Четыре важных инструмента, которые каждому специалисту по анализу данных следует иметь в своем арсенале

Фото Адама Шмигельского на Unsplash

Сейчас отличное время быть специалистом по анализу данных! То, что раньше требовало много времени, теперь может быть автоматизировано, что оставляет много места для улучшения создания исследований и разработки моделей машинного обучения.

Многое уже было написано об этих инструментах, и я хотел добавить больше ценности, сначала ограничив свой выбор инструментов, а также, чтобы внести свою уникальную точку зрения и опыт использования этих библиотек. Так как мы должны быть методичными, мы быстро увидим, что нам нужно выбрать пакет, который лучше всего работает в нашей конкретной ситуации. Некоторые важные факторы, которые нужно учесть, это скорость, простота использования, всесторонность и объем данных.

Эта статья может быть продолжением следующих статей, в которых я делюсь своими идеями по визуализации данных:

  • Резко улучшите свой анализ исследовательских данных (EDA)
  • Никогда не пропускайте этот шаг в анализе исследовательских данных (EDA)!
  • Поднимите свою визуализацию: гонка баров

Итак, без лишних слов, давайте начнем!

Набор данных

Давайте начнем с выбора набора данных, который содержит достаточное количество количественных и категориальных переменных. Это позволит нам оценить и критиковать каждый пакет визуализации для нашего собственного использования.

Мы получим его из OpenML:

pip install openml

После установки этого пакета приступим к загрузке Филиппинского набора данных о доходах и расходах.

Филиппинская статистическая служба (ФСС) регулярно проводит обширное обследование доходов и расходов семей (FIES) каждые три года. Целью исследования является сбор данных о доходах семей, потребительских привычках и других связанных факторах на Филиппинах.

Этот набор данных включает выбранные переменные из последнего FIES, содержащий более 40 000 наблюдений и 60 переменных, в основном, сфокусированных на доходах и расходах семей. Цель данных заключается в изучении лучших моделей для прогнозирования…