Машинное обучение понимание целей центрирования и масштабирования

Машинное обучение - центрирование и масштабирование.

Использование трансформаторов (MinMaxScaler, StandardScaler, RobustScaler)

Scaling, Image by Flo on OpenSea

Введение

В этой статье представлены концепции центрирования и масштабирования. На примере реального использования объясняются преимущества центрирования и масштабирования данных.

Мы рассмотрим простые расчеты и объяснения, изучив готовые методы Scikit-Learn.

Технически мы сравним MinMaxScaler, StandardScaler и RobustScaler. Они являются частью методов трансформации данных, упрощающих предварительную обработку.

В конце вы поймете цель центрирования и масштабирования данных и будете готовы использовать готовые трансформаторы Scikit-Learn.

Что такое центрирование и масштабирование?

Понимание концепций

Масштабирование преобразует данные в определенный диапазон или масштаб, а центрирование включает смещение точек данных так, чтобы их среднее значение стало нулевым. Ниже приведен пример.

Image by Flo

Вы можете увидеть эффект масштабирования и центрирования данных. Теперь, справа, данные центрированы вокруг 0 и отображаются на более короткой шкале (ось X и Y).

Преимущества

Центрирование и масштабирование данных имеют несколько преимуществ, наиболее важные для масштабирования:

  • Улучшение производительности алгоритмов: Алгоритмы, использующие расстояние, такие как K-Nearest Neighbors (KNN) и K-Means, чувствительны к расстоянию между данными. Уменьшение масштаба данных улучшает их производительность.
  • Нормализация признаков: Когда набор данных содержит признаки с разным масштабом, масштабирование данных позволяет избежать слишком большого влияния признаков с большими значениями.
  • Улучшение сравнения данных: Оно облегчает сравнение данных из-за их одинакового масштаба.
  • Предотвращение числовых проблем: Масштабирование данных может предотвратить проблемы, такие как переполнение и недостаточность (когда числа очень малы или большие).
  • Уменьшение влияния выбросов