Какие особенности вредны для вашей модели классификации?

Какие особенности негативно влияют на модель классификации?

Как рассчитать вклад ошибки функций классификатора с целью понимания и улучшения модели

[Image by Author]

Важность функций является наиболее распространенным инструментом для объяснения модели машинного обучения. Он настолько популярен, что многие специалисты по обработке данных начинают верить, что важность функций равно качеству функций.

Это не так.

Когда функция является важной, это просто означает, что модель нашла ее полезной в обучающем наборе. Однако это ничего не говорит о способности функции обобщаться на новые данные!

Для учета этого нам необходимо сделать различие между двумя понятиями:

  • Вклад в прогнозирование: вес, который имеет переменная в прогнозах, сделанных моделью. Это определяется шаблонами, которые модель нашла в обучающем наборе. Это эквивалентно важности функции.
  • Вклад в ошибку: вес, который имеет переменная в ошибках, допущенных моделью на контрольном наборе данных. Это лучший показатель производительности функции на новых данных.

В этой статье я объясню логику расчета этих двух величин на модели классификации. Я также покажу пример, в котором использование вклада ошибки для выбора функций приводит к гораздо лучшему результату по сравнению с использованием вклада прогнозирования.

Если вам интереснее регрессия, а не классификация, вы можете прочитать мою предыдущую статью “Ваши функции важны? Это не значит, что они хорошие”.

Содержание

  1. Начиная с игрушечного примера
  2. Какую “ошибку” следует использовать для моделей классификации?
  3. Как следует управлять значениями SHAP в моделях классификации?
  4. Вычисление “Вклада в прогнозирование”
  5. Вычисление “Вклада в ошибку”
  6. Пример реального набора данных
  7. Доказательство того, что это работает: рекурсивное устранение функций с “Вкладом в ошибку”
  8. Выводы

1. Начиная с игрушечного примера