Возвращение к основам регрессия по методу Пробит

Возвращение к основам Регрессия по методу Пробит

Ключевой метод в анализе бинарных исходов

Изображение Issac Smith на Unsplash

Когда мы сталкиваемся с задачей анализа бинарных исходов, мы часто думаем о логистической регрессии как о главном методе. Поэтому большинство статей о регрессии бинарного исхода фокусируются исключительно на логистической регрессии. Однако, логистическая регрессия – не единственный доступный вариант. Существуют и другие методы, такие как Линейная Модель Вероятности (LPM), Пробит-регрессия и Комплементарная Лог-Лог (Cloglog) регрессия. К сожалению, в интернете недостаточно статей на эти темы.

Линейная Модель Вероятности редко используется, поскольку она не очень эффективна в улавливании криволинейной связи между бинарным исходом и независимыми переменными. Я ранее обсуждала Комплементарную Лог-Лог регрессию в одной из своих предыдущих статей. В то время как в интернете есть некоторые статьи о Пробит-регрессии, они склонны быть техническими и сложными для непрофессиональных читателей. В этой статье мы объясним основные принципы Пробит-регрессии и ее применение, а также сравним ее с логистической регрессией.

Основные понятия

Так выглядит типичная зависимость между бинарной исходной переменной и независимой переменной:

Изображение автора

Кривая, которую вы видите, называется S-образной кривой или сигмоидной кривой. Если мы внимательно рассмотрим этот график, мы заметим, что он напоминает накопительную функцию распределения (CDF) случайной величины. Поэтому имеет смысл использовать CDF для моделирования связи между бинарной исходной переменной и независимыми переменными. Два наиболее часто используемых CDF – логистическое и нормальное распределения. Логистическая регрессия использует логистическое CDF, заданное следующим уравнением:

Изображение автора

В Пробит-регрессии мы используем накопительную функцию распределения (CDF) нормального распределения. Логично заменить логистическое CDF на CDF нормального распределения, чтобы получить уравнение Пробит-регрессии:

Изображение автора

Где Φ() представляет накопительную функцию распределения стандартного нормального распределения.

Мы можем запомнить это уравнение, но оно не разъяснит нам наше представление о Пробит-регрессии. Поэтому мы применим другой подход, чтобы лучше понять, как работает Пробит-регрессия.

Основная концепция Пробит-регрессии

Предположим, у нас есть данные о весе и состоянии депрессии в выборке из 1000 человек. Нашей целью является изучение связи между весом и депрессией с использованием Пробит-регрессии. (Скачайте данные по этой ссылке.)

Для предоставления интуиции представим себе, что будет ли образовываться депрессия у индивида (индивида “i”) зависит от ненаблюдаемой скрытой переменной, обозначаемой как Ai. На значение скрытой переменной влияют одна или несколько независимых переменных. В нашем случае, вес индивида определяет значение скрытой переменной. Вероятность появления депрессии возрастает с увеличением значения скрытой переменной.

Изображение автора

Вопрос заключается в том, поскольку Ai является ненаблюдаемой скрытой переменной, как мы оцениваем параметры указанного уравнения? Если предположить, что оно нормально распределено с одним и тем же средним и дисперсией, мы сможем получить некоторую информацию о скрытой переменной и оценить параметры модели. Я более подробно объясню уравнения позже, но сначала выполним некоторые практические вычисления.

Вернемся к нашим данным: в наших данных рассчитаем вероятность депрессии для каждого возраста и составим таблицу. Например, есть 7 человек с весом 40 кг, и у одного из них есть депрессия, поэтому вероятность депрессии для веса 40 составляет 1/7 = 0,14286. Если мы это сделаем для всех весов, получим следующую таблицу:

Изображение автора

Теперь, как мы получаем значения скрытой переменной? Мы знаем, что нормальное распределение дает вероятность Y для заданного значения X. Однако, обратная функция накопленного распределения (CDF) нормального распределения позволяет нам получить значение X для заданного значения вероятности. В данном случае у нас уже есть значения вероятности, что означает, что мы можем определить соответствующее значение скрытой переменной, используя обратную функцию CDF нормального распределения. [Примечание: это обратная функция CDF нормального распределения доступна в практически каждом статистическом программном обеспечении, включая Excel.]

Изображение автора

Эта ненаблюдаемая скрытая переменная Ai известна как нормализованное эквивалентное отклонение (n.e.d.) или просто нормит. При ближайшем рассмотрении это просто z-оценки, связанные с ненаблюдаемой скрытой переменной. Как только мы получим оцененное значение Ai, относительно просто оценивается beta1 и beta2. Мы можем провести простую линейную регрессию между Ai и нашей независимой переменной.

Изображение автора

Коэффициент веса 0,0256 дает нам изменение z-оценки целевой переменной (депрессия), связанное с изменением веса на одну единицу. Конкретно, увеличение веса на одну единицу связано с увеличением примерно на 0,0256 единиц z-оценки вероятности высокой депрессии. Мы можем рассчитать вероятность депрессии для любого возраста, используя стандартное нормальное распределение. Например, для веса 70,

Ai = -1,61279 + (0,02565)*70

Ai = 0,1828

Вероятность, связанная с z-оценкой 0,1828 (P(x<Z)), равна 0,57; то есть предсказанная вероятность депрессии для веса 70 составляет 0,57.

Логично сказать, что вышеприведенное объяснение было упрощением умеренно сложного метода. Также важно отметить, что это всего лишь иллюстрация основных принципов использования накопленного нормального распределения в регрессии Пробит. Теперь давайте рассмотрим математические уравнения.

Математическая структура

Мы обсуждали ранее, что существует скрытая переменная Ai, которая определяется предикторами. Очень логично предположить, что существует критическое или пороговое значение (Ai_c) скрытой переменной, такое что, если Ai превышает Ai_c, у человека есть депрессия; в противном случае, у него/нее нет депрессии. Учитывая предположение о нормальности, вероятность того, что Ai меньше или равно Ai_c, можно рассчитать на основе стандартизованной нормальной функции накопленного распределения:

Изображение автора

Где Zi – стандартная нормальная переменная, т.е. Z ∼ N(0, σ 2), а F – стандартная функция нормального распределения.

Информацию, связанную с скрытой переменной и β1 и β2, можно получить, взяв обратное от вышеприведенного уравнения:

Изображение автора

Обратная функция нормального распределения используется, когда мы хотим получить значение Z для заданного значения вероятности.

Теперь процесс оценки β1, β2 и Ai зависит от того, имеются ли у нас объединенные данные или данные на индивидуальном уровне.

Когда у нас есть объединенные данные, рассчитать вероятности легко. В нашем примере депрессии, исходные данные не объединены, то есть для каждого индивида и его/ее статуса депрессии (1 и 0) есть вес. Исходно общий размер выборки составлял 1000 человек, но мы сгруппировали эти данные по весу, получив 71 группу, и рассчитали вероятность депрессии в каждой группе по весу.

Однако, когда данные несгруппированы, для оценки параметров модели используется метод максимального правдоподобия (MLE). Ниже показана пробит-регрессия на наших несгруппированных данных (n = 1000):

Изображение автора

Можно заметить, что коэффициент веса очень близок к тому, что мы оценили с помощью объединенных данных.

Пробит против логит

Теперь, когда мы поняли понятие пробит-регрессии и знакомы (надеюсь) с логистической регрессией, возникает вопрос: какая модель предпочтительнее? Какая модель лучше работает в разных условиях? Ну, обе модели довольно похожи в своем применении и дают сопоставимые результаты (в терминах предсказанных вероятностей). Единственное незначительное различие заключается в их чувствительности к экстремальным значениям. Давайте ближе рассмотрим обе модели:

Изображение автора

Из графика можно видеть, что пробит-регрессия и логит-регрессия очень похожи. Однако пробит-регрессия менее чувствительна к экстремальным значениям по сравнению с логит-регрессией. Это означает, что при экстремальных значениях изменение вероятности исхода при изменении предикторной переменной в единичном размере является выше в модели логита по сравнению с моделью пробита. Если вы хотите, чтобы ваша модель была чувствительной к экстремальным значениям, вы можете предпочесть использовать логистическую регрессию. Однако, это выбор не существенно влияет на оценки, так как обе модели дают похожие результаты в терминах предсказанных вероятностей. Важно отметить, что полученные коэффициенты отличаются друг от друга и не могут быть прямо сравниваемыми. Логит регрессия предоставляет изменения в логарифмических шансах исхода при изменении предикторной переменной, в то время как пробит-регрессия предоставляет изменения в Z-оценке исхода. Однако, если мы расчитываем предсказанные вероятности исхода с использованием обеих моделей, результаты будут очень похожи.

На практике логистическая регрессия предпочтительнее пробит-регрессии из-за своей математической простоты и понятности интерпретации коэффициентов.