Будете ли вы использовать ANOVA для выбора признаков?

Используете ли вы ANOVA для выбора признаков?

Узнайте все об ANOVA с интересным набором данных.

Фото от Elimende Inagella на Unsplash

Мы часто забываем о самом важном этапе при разработке модели машинного обучения — выборе признаков. Неверный выбор признаков, коррелирующих с целевой переменной, может предотвратить достижение потенциальной производительности вашей модели.

Выбор признаков влияет на всю конвейерную систему двумя способами:-

  1. Удаляет бесполезные и избыточные признаки
  2. С высокой вероятностью увеличивает производительность, а в худшем случае не меняет точность.

Выбор правильной техники может помочь вам быстрее сойтись на правильном наборе признаков. Иногда вам придется узнать это, попробовав различные методы иделегировать реализацию.

Фильтрующие методы полагаются на статистические формулировки для ранжирования признаков, тогда как оберточные методы используют модели для выбора соответствующих признаков. В этой статье мы сосредоточимся на ANOVA — фильтрующем методе, используемом для выбора сильно коррелирующих признаков с нашей целевой переменной.

Я хочу, чтобы вы извлекли максимум из этой статьи, в следующие несколько минут мы рассмотрим следующие темы:

  1. Четкое понимание, что такое ANNOVA.
  2. Как использовать ANOVA на наборе данных.
  3. Мощные визуализации.

ANOVA

Анализ дисперсии, также известный как ANOVA, является статистическим подходом, помогающим нам понять влияние категориального признака на целевую переменную. Это расширение теста Стьюдента, где тест Стьюдента ограничен проверкой для 2 групп, в то время как ANOVA применяется к более чем 2 группам, присутствующим в одном признаке.

Разница между ANOVA и тестом Стьюдента

Гипотеза ANOVA (первый шаг) :-

Гипотеза подобна предварительному выводу на основе ограниченных доказательств на руках, чтобы у нас была отправная точка для дальнейшего исследования. Обычно формулируются два утверждения гипотезы:-