3 мощных библиотеки Python для (частичной) автоматизации анализа данных и начала вашего проекта

3 эффективные библиотеки Python для (частичной) автоматизации анализа данных и начала вашего проекта

Все проблемы машинного обучения являются проблемами данных.

Чтобы избежать известного выражения “что входит, то и выходит”, имеет смысл потратить значительное время на понимание и очистку ваших данных. Недавно я прочитал книгу “The Kaggle Book” Конрада Банахевича и Луки Массарона, где они провели интервью с многими гроссмейстерами Kaggle. Интересно, что спешка или пропуск EDA – это самая распространенная ошибка, которую они и новички делают.

Фото Choong Deng Xiang на Unsplash

Мы все знаем, насколько важен EDA, но все равно пропускаем этот шаг. Это может быть связано с тем, что сложно знать, с чего начать, какие вопросы следует задавать, или может быть мы слишком стремимся приступить к моделированию.

Вот 3 библиотеки Python, которые вы можете использовать для частичной автоматизации Exploratory Data Analysis и начала работы с вашим проектом данных.

Данные для нижеприведенного анализа взяты с Kaggle, House Prices – Advanced Regression Techniques competition.

YData Profiling

Это новая версия Pandas profiling, поддерживаемая Spark, и теперь она выходит за рамки простого Pandas DataFrame.

Цель, однако, остается прежней: предоставить однострочный опыт Exploratory Data Analysis (EDA). Этот пакет подчеркивает важность наличия простой в реализации системы оценки качества данных. Эта система не должна ограничиваться только начальной фазой вашего проекта, а должна использоваться на протяжении всего проекта с данными.

YData profiling можно запустить всего в две строки.

!pip install ydata-profiling

from ydata_profiling import ProfileReport#Создание отчета о профиле данных
profile = ProfileReport(train,title='EDA')#показать отчет в блокноте
profile.to_notebook_iframe()
Оповещения о высокой корреляции, несбалансированных классах, отсутствующих данных и т. д.... Изображение автора
Распределение переменных. Изображение автора

На выходе показано распределение переменных и предоставляется набор оповещений…