Сокращение размерности с помощью Scikit-Learn теория и реализация метода главных компонент (PCA)

Уменьшение размерности с помощью Scikit-Learn теория и применение метода главных компонент (PCA)

Проклятие многомерности можно приручить! Узнайте, как сделать это с помощью Python и Scikit-Learn.

Image source: unsplash.com.

В романе Flatland персонажи, живущие в двумерном мире, оказываются сбиты с толку и неспособны понять, когда сталкиваются с трехмерным существом. Я использую эту аналогию, чтобы показать, как подобные явления могут возникать в машинном обучении при работе с проблемами, включающими тысячи или даже миллионы измерений (то есть признаков): происходят удивительные явления, которые имеют губительные последствия для наших моделей машинного обучения.

Я уверен, что вы хотя бы раз были поражены огромным количеством признаков, участвующих в современных проблемах машинного обучения. Каждый практикующий специалист по науке о данных рано или поздно столкнется с этим вызовом. В этой статье мы рассмотрим теоретические основы и реализацию на Python наиболее используемого алгоритма снижения размерности: Анализ главных компонент (PCA).

Зачем нам нужно уменьшать количество признаков?

В настоящее время распространены наборы данных, содержащие тысячи и даже миллионы признаков. Добавление новых признаков в набор данных может принести ценную информацию, однако они будут замедлять процесс обучения и усложнять поиск хороших закономерностей и решений. В науке о данных это называется проклятием многомерности и часто приводит к искаженному и неправильному предсказанию данных.

Мы, практикующие специалисты по машинному обучению, можем воспользоваться тем, что для большинства задач МО количество признаков можно значительно уменьшить. Например, рассмотрим изображение: пиксели вблизи границы часто не несут ценной информации. Однако, техники безопасного уменьшения количества признаков в задаче машинного обучения не являются тривиальными и требуют объяснения, которое я предоставлю в этой статье.

Изображение автора.

Представленные мной инструменты не только упрощают вычислительные усилия и повышают точность прогнозирования, но также служат средством графической визуализации высокоразмерных данных. Поэтому они являются неотъемлемой частью коммуникации ваших исследований…