Как интерпретировать коэффициенты логистической регрессии

Интерпретация коэффициентов логистической регрессии

Расчет средних маргинальных эффектов коэффициентов логистической регрессии

Изображение от Dominika Roseclay на Pexels.com

Вы любите логистическую регрессию, но ненавидите интерпретацию всего, что связано с логарифмическим преобразованием? Ну, я не могу сказать, что вы в хорошей компании, но я могу сказать, что у вас есть я в качестве компании!

В этой статье я расскажу о том, как интерпретировать коэффициенты логистической регрессии. Вот план статьи:

  1. Интерпретация коэффициентов линейной регрессии
  2. Почему интерпретация коэффициентов логистической регрессии вызывает трудности
  3. Как интерпретировать коэффициенты логистической регрессии
  4. Расчет средних маргинальных эффектов с помощью пакета statsmodels
  5. Заключение

Интерпретация коэффициентов линейной регрессии

Большинство людей с элементарными знаниями статистики полностью понимают, как интерпретировать коэффициенты при линейной регрессии. Если это про вас, вы можете пропустить к части статьи, где рассматриваются коэффициенты логистической регрессии.

Интерпретация коэффициентов линейной регрессии очень проста и легка. Простота интерпретации является одной из причин, по которым линейная регрессия до сих пор остается очень популярным инструментом, несмотря на появление значительно более сложных алгоритмов.

Простая линейная регрессия (линейная регрессия с одной входной переменной) имеет следующую форму:

Нас в основном интересует интерпретация B₁. Для линейной регрессии эта интерпретация проста: при изменении x на одну единицу мы ожидаем изменения y на B₁. Другой термин для этого отношения – «средний маргинальный эффект».

Давайте рассмотрим пример того, как мы можем интерпретировать B₁ с помощью симуляции. Симуляция – отличный инструмент для тестирования методов и подходов в области науки о данных, потому что мы создаем базовую истину, а затем проверяем, способны ли наши методы ее идентифицировать.

В приведенном ниже коде мы моделируем 30 000 строк значений x. Мы моделируем значения x, выбирая их из нормального распределения с заданными параметрами (в данном случае средним значением 2 и стандартным отклонением 0,2). Затем мы моделируем y, умножая x на нашу симулированную величину влияния 0,16, а затем добавляем случайную ошибку…