Обнаружение аномалий с использованием Scikit-Learn и Matplotlib практическое руководство

Обнаружение аномалий практическое руководство с использованием Scikit-Learn и Matplotlib

Узнайте, как визуализации, алгоритмы и статистика помогают вам выявлять аномалии для ваших задач машинного обучения.

Что имеют в виду воздушные шарики в отношении выбросов? Найдите ответ во вступлении. Источник изображения: pixabay.com.

Представьте себе комнату, заполненную яркими воздушными шариками, каждый из которых символизирует точку данных в наборе данных. Из-за их различных свойств шарики парят на разной высоте. Теперь представьте некоторые воздушные шарики, наполненные гелием, которые неожиданно взлетают далеко выше остальных. Так же, как эти исключительные шарики нарушают однородность комнаты, выбросы нарушают узор в наборе данных.

Вернувшись от этой яркой аналогии к чистой статистике, выбросы определяются как аномалии, или лучше сказать, точки данных, значительно отклоняющиеся от остального набора данных.

Рассмотрим разработанный алгоритм обучения с подкреплением для диагностики заболеваний на основе данных пациентов. В этом примере реального мира выбросы могут представлять собой экстремально высокие значения в лабораторных результатах или физиологических параметрах. Несмотря на различные их причины, такие как ошибки сбора данных, погрешности измерения или подлинные редкие события, их присутствие может привести к неправильным диагнозам алгоритма.

Вот почему мы, практики машинного обучения или науки о данных, всегда должны осторожно обращаться с выбросами.

В этой короткой статье я расскажу о нескольких методах эффективного выявления и удаления выбросов из ваших данных.

Один из них – SVM, которым я занимался в этой статье.

Машинное обучение на основе метода опорных векторов с использованием Scikit-Learn: дружественное введение

Каждому специалисту по обработке данных следует иметь SVM в своем наборе инструментов. Узнайте, как овладеть этой универсальной моделью на практике…

towardsdatascience.com

Что такое выбросы?

Выбросы – это нерепрезентативные точки данных в наборе данных, или лучше сказать, точки данных, значительно отклоняющиеся от остальных. Несмотря на их простое определение, обнаружение таких аномалий не всегда просто, но сначала давайте ответим на следующий базовый вопрос.

Почему мы хотим обнаруживать выбросы в наборе данных?

На этот вопрос существует два ответа. Первая причина обнаружения выбросов заключается в том, что…