Полное понимание эластичной регрессии с использованием Python

Полное понимание эластичной регрессии с примерами на Python

Метод регуляризации в машинном обучении

Фото от Boitumelo на Unsplash

Простыми словами, эластичная регрессия совмещает качества гребневой и лассо регрессии для регуляризации модели машинного обучения.

Где мы используем эластичную регрессию?

  1. Она помогает преодолеть проблемы переобучения с качеством гребневой регрессии.
  2. Работа с проблемами мультиколлинеарности в данных.
  3. Сокращение признаков в данных с качеством лассо.

Прежде чем изучать эластичную регрессию, нам нужно освежить понятие основного алгоритма. Для создания компромисса между смещением и разбросом и уменьшения проблемы переобучения, мы можем использовать такие методы, как бэггинг, бустинг и регуляризация.

Переобучение: Модель хорошо работает на обучающих данных, но плохо на тестовых данных. В терминах линейной регрессии это означает, что значение m, то есть наклон в уравнении прямой (y = mx + b), становится очень высоким.

Два концепта, связанные с регуляризацией:

  1. Гребневая регрессия или L2 регуляризация: Используется для преодоления или уменьшения проблемы переобучения в модели регрессии. Она увеличивает значение смещения, но одновременно снижает разброс, делая модель более обобщенной.

Функция потерь линейной регрессии показана ниже:

L = sum(Yi — Yi_hat)²

где, L = функция потерь, Yi = фактические предсказанные значения, Yi_hat = предсказанные значения модели

В гребневой регрессии мы добавляем дополнительные члены в функцию потерь, которые помогают минимизировать значение наклона и избежать переобучения.

Функция потерь становится:

L = sum(Yi — Yi_hat)² + lambda(w²)

где,

lambda = коэффициент штрафа (можно выбрать постоянное значение), W = коэффициенты признаков

2. Лассо регрессия или L1 регуляризация: Также используется для преодоления или снижения проблемы переобучения, а также для сокращения признаков, которые не являются наиболее важными для модели.

Функция потерь становится:

L = sum(Yi — Yi_hat)² + lambda(|w|)

Здесь,