Введение в PCA в Python с помощью Sklearn, Pandas и Matplotlib

Введение в PCA в Python с помощью Sklearn, Pandas и Matplotlib

Узнайте интуицию, стоящую за PCA в Python и Sklearn, преобразуя многомерный набор данных в произвольное количество измерений и визуализируя уменьшенные данные с помощью Matplotlib

Фото Nivenn Lanos на Unsplash

Как аналитики данных и ученые, мы часто сталкиваемся с сложными задачами из-за растущего объема доступной информации.

Нельзя отрицать, что накопление данных из различных источников стало постоянной составляющей нашей жизни. Каждый практически описывает явление как совокупность переменных или атрибутов.

Очень редко возникает задача анализа без необходимости работы с многомерным набором данных — это особенно явно сегодня, когда сбор данных все более автоматизирован, а технология позволяет получать информацию из различных источников, включая датчики, IoT-устройства, социальные сети, онлайн-транзакции и многое другое.

Но с ростом сложности явления растут и проблемы, с которыми сталкивается ученый по данным для достижения своих целей.

Эти проблемы могут включать в себя…

  • Высокая размерность: Большое количество столбцов может привести к проблемам высокой размерности, которые могут сделать модели более сложными и трудными для интерпретации.
  • Шумные данные: Автоматический сбор данных может привести к наличию ошибок, пропущенных данных или ненадежных данных.
  • Интерпретация: Высокая размерность означает низкую интерпретируемость — трудно понять, какие признаки наиболее влиятельны для определенной проблемы.
  • Переобучение: Слишком сложные модели могут страдать от переобучения, то есть чрезмерной адаптации к обучающим данным, с последующей слабой способностью обобщать новые данные.
  • Вычислительные ресурсы: Анализ больших и сложных наборов данных часто требует значительных вычислительных ресурсов. Масштабируемость является важным фактором.
  • Коммуникация результатов: Объяснение полученных из многомерного набора данных результатов является важной задачей, особенно при общении с…