Проклятие размерности в классификаторах KNN

Преодоление проклятия размерности в классификаторах KNN

Исследование неприятного эффекта «высокой размерности» в алгоритмах кластеризации

Источник: https://scipy-lectures.org/packages/scikit-learn/auto_examples/plot_iris_knn.html

В этой статье мы будем исследовать эффект «проклятия размерности» в алгоритме KNN, начиная с краткого обзора работы алгоритма KNN и заканчивая полным пониманием самого проклятия.

Кому это полезно? Уже знакомым с машинным обучением и алгоритмами кластеризации, а также всем, кто хочет к ним прийти.

На сколько продвинута эта статья? Эта статья предназначена преимущественно для опытных инженеров.

Предварительные требования: В этой статье я кратко рассмотрю алгоритм KNN, но вы можете обратиться к следующей статье для более подробной информации по этой теме.

Алгоритм KNN: Что? Когда? Зачем? Как?

KNN: K-ближайший сосед является одним из основных алгоритмов для начала обучения машинным. Модели машинного обучения используют…

towardsdatascience.com

Краткое Введение в KNN

Прежде чем мы перейдем к проклятию размерности, я хочу кратко рассказать об алгоритме KNN. В своей самой простой форме, алгоритм KNN объединяет похожие элементы вместе и буквально находит «ближайших соседей».

Вот как это работает: Дан набор данных с помеченными точками. Когда вы хотите классифицировать новую точку данных, KNN определяет K ближайших точек в пространстве признаков. Класс или значение, присвоенное новой точке, определяется голосованием большинства (для классификации) или средним (для регрессии) значением среди этих K соседей. «Ближайший» обычно определяется метрикой расстояния, обычно эвклидовым расстоянием.

Изображение автора

Алгоритм KNN работает на предположении, что похожие экземпляры в пространстве признаков обычно имеют похожие результаты. Это непараметрический и инстанс-базированный алгоритм, что означает, что он не делает предположений о распределении данных и полагается на всем наборе данных для прогнозирования. Эта простота способствует его популярности, но он может быть чувствителен к проклятию размерности в…