3 мощных библиотеки Python для (частичной) автоматизации анализа данных и начала вашего проекта
3 эффективные библиотеки Python для (частичной) автоматизации анализа данных и начала вашего проекта
Все проблемы машинного обучения являются проблемами данных.
Чтобы избежать известного выражения “что входит, то и выходит”, имеет смысл потратить значительное время на понимание и очистку ваших данных. Недавно я прочитал книгу “The Kaggle Book” Конрада Банахевича и Луки Массарона, где они провели интервью с многими гроссмейстерами Kaggle. Интересно, что спешка или пропуск EDA – это самая распространенная ошибка, которую они и новички делают.
Мы все знаем, насколько важен EDA, но все равно пропускаем этот шаг. Это может быть связано с тем, что сложно знать, с чего начать, какие вопросы следует задавать, или может быть мы слишком стремимся приступить к моделированию.
Вот 3 библиотеки Python, которые вы можете использовать для частичной автоматизации Exploratory Data Analysis и начала работы с вашим проектом данных.
Данные для нижеприведенного анализа взяты с Kaggle, House Prices – Advanced Regression Techniques competition.
- 15 Управляемых проектов для совершенствования навыков в области науки о данных
- Философия и наука о данных – глубокое размышление о данных
- Практическое применение управления версиями данные, Модель ML и код
YData Profiling
Это новая версия Pandas profiling, поддерживаемая Spark, и теперь она выходит за рамки простого Pandas DataFrame.
Цель, однако, остается прежней: предоставить однострочный опыт Exploratory Data Analysis (EDA). Этот пакет подчеркивает важность наличия простой в реализации системы оценки качества данных. Эта система не должна ограничиваться только начальной фазой вашего проекта, а должна использоваться на протяжении всего проекта с данными.
YData profiling можно запустить всего в две строки.
!pip install ydata-profiling
from ydata_profiling import ProfileReport#Создание отчета о профиле данных
profile = ProfileReport(train,title='EDA')#показать отчет в блокноте
profile.to_notebook_iframe()
На выходе показано распределение переменных и предоставляется набор оповещений…