Обнаружение аномалий с использованием Scikit-Learn и Matplotlib практическое руководство
Обнаружение аномалий практическое руководство с использованием Scikit-Learn и Matplotlib
Узнайте, как визуализации, алгоритмы и статистика помогают вам выявлять аномалии для ваших задач машинного обучения.

Представьте себе комнату, заполненную яркими воздушными шариками, каждый из которых символизирует точку данных в наборе данных. Из-за их различных свойств шарики парят на разной высоте. Теперь представьте некоторые воздушные шарики, наполненные гелием, которые неожиданно взлетают далеко выше остальных. Так же, как эти исключительные шарики нарушают однородность комнаты, выбросы нарушают узор в наборе данных.
Вернувшись от этой яркой аналогии к чистой статистике, выбросы определяются как аномалии, или лучше сказать, точки данных, значительно отклоняющиеся от остального набора данных.
Рассмотрим разработанный алгоритм обучения с подкреплением для диагностики заболеваний на основе данных пациентов. В этом примере реального мира выбросы могут представлять собой экстремально высокие значения в лабораторных результатах или физиологических параметрах. Несмотря на различные их причины, такие как ошибки сбора данных, погрешности измерения или подлинные редкие события, их присутствие может привести к неправильным диагнозам алгоритма.
Вот почему мы, практики машинного обучения или науки о данных, всегда должны осторожно обращаться с выбросами.
- Прогнозирование измерений скважинной записи с использованием нейронных сетей с помощью Keras
- Meta AI представляет Habitat 3.0, Habitat Synthetic Scenes Dataset и HomeRobot 3 ключевых достижения в развитии социальных воплощенных AI-агентов.
- Почему вероятностная связь более точна, чем нечеткое сопоставление или подходы на основе частотности терминов
В этой короткой статье я расскажу о нескольких методах эффективного выявления и удаления выбросов из ваших данных.
Один из них – SVM, которым я занимался в этой статье.
Машинное обучение на основе метода опорных векторов с использованием Scikit-Learn: дружественное введение
Каждому специалисту по обработке данных следует иметь SVM в своем наборе инструментов. Узнайте, как овладеть этой универсальной моделью на практике…
towardsdatascience.com
Что такое выбросы?
Выбросы – это нерепрезентативные точки данных в наборе данных, или лучше сказать, точки данных, значительно отклоняющиеся от остальных. Несмотря на их простое определение, обнаружение таких аномалий не всегда просто, но сначала давайте ответим на следующий базовый вопрос.
Почему мы хотим обнаруживать выбросы в наборе данных?
На этот вопрос существует два ответа. Первая причина обнаружения выбросов заключается в том, что…