Единая точка для логистической регрессии

Единая точка в логистической регрессии секреты эффективности

Логистическая регрессия? Почему она называется Регрессией? Эта модель линейная? Почему она так популярна? И что такое логарифмический шанс?

Все эти вопросы у каждого человека, начинающего изучать логистическую регрессию. И я тоже застряла на них. Я прочитала множество статей на VoAGI, в том числе на towardsdatascience, analyticsvidhya, machinelearningmastery и других. Веб-контент на самом деле замечательный, но для лучшего понимания темы вам нужно переходить на эти веб-сайты.

Поэтому я решила сделать все проще и подготовить эту статью, которая может стать единственным местом, куда вам понадобится обратиться, чтобы узнать все о логистической регрессии.

ПЛАН :

  • Что такое логистическая регрессия?
  • Почему нельзя просто использовать линейную регрессию для классификации?
  • Сигмоидные кривые и логистическая регрессия
  • Функции Logit и Probit
  • Почему она называется Регрессией, если она используется для классификации?
  • Почему это линейная модель?
  • Почему именно функция Logit?
  • Функция потерь для логистической регрессии
  • Функция стоимости для логистической регрессии

1. Что такое логистическая регрессия?

Логистическая регрессия – это алгоритм обучения с учителем, используемый для решения задач классификации. Он был разработан для предсказания вероятности наступления события. В отличие от многих алгоритмов классификации, логистическая регрессия фактически предсказывает вероятность наступления события, а не дискретные результаты о том, произойдет ли событие (1) или нет (0). Логистическая регрессия является преобразованной версией функции уравнения линейной регрессии и поэтому называется логистической регрессией.

2. Почему нельзя просто использовать линейную регрессию для классификации?

Если вы знакомы с линейной регрессией и тем, что такое линия лучшей подгонки для регрессии, рассмотрим пример задачи для лучшего понимания.

Q: Нужно предсказать, пройдет ли студент экзамен на основе количества часов, которые он учится. Учитывая количество часов учебы по оси x и вероятность сдачи по оси y, прогнозы будут либо 0 (неудача), либо 1 (успех). Затем график будет иметь точки либо на y = 0, либо на y = 1. Теперь, если мы применим модель регрессии к такой проблеме с уравнением y = ax + b, линия наилучшей подгонки будет выглядеть примерно так:

Linear Regression fit on classification problem

Теперь, учитывая пороговое значение, скажем, 5, мы решаем, что точки с пороговым значением (5) будут иметь вероятность 0.5. Таким образом, точки выше порога будут предсказаны как 1, а те, что ниже порога – как 0. Такая модель будет давать хороший результат во многих случаях. Как видно, точки ниже 5 предсказаны как 0, так что человек, который учился 4 часа, будет предсказан как не сдавший (0), а тот, кто учился 8 часов, будет предсказан как сдавший (1).

Теперь рассмотрим ситуацию с изменением количества часов обучения. При изменении от 4.5 до 5.5 часов предсказания изменятся с 0 (неудача) на 1 (успех). Но при изменении от 7 до 10 часов вероятность останется той же, то есть 1 (успех).

  • Это указывает на то, что вероятность сдать экзамен увеличивается гораздо больше при увеличении количества часов на один (от 4.5 до 5.5), по сравнению с увеличением количества часов на 3 (от 7 до 10). То есть, прирост количества часов равен 1, но вероятность сдачи экзамена меняется резко для первого случая.

Поэтому незначительное повышение кажется постоянным, когда используется прямая линия для задачи классификации.

  • Другая проблема с линейной регрессией заключается в том, что прямая линия может предсказывать значения больше 1 и меньше 1. Это означает, что линия принудительно подгоняет данные. Предсказание, большее 1 или меньшее 1, не имеет смысла с точки зрения вероятности, так как вероятности могут быть только от 0 до 1.

Поэтому модель линейной регрессии является принужденным подгоном для задачи классификации.

До настоящего момента все, что нам нужно знать, это то, что линия не подходит для модели хорошо, потому что:

  1. Незначительное повышение кажется постоянным, когда используется прямолинейная подгонка для задачи классификации.
  2. Модель линейной регрессии предсказывает значения ниже 0 и выше 1, и поэтому является принужденным подгоном для задачи классификации.

Таким образом, нам нужна кривая, которая хорошо подходит для модели и преодолевает все вышеупомянутые ограничения линейной модели. И вот где вступает в игру логистическая регрессия.

Лучшей моделью, о которой мы можем подумать для указанной ситуации, будет, предположительно, «S-образная кривая».

3. Что такое S-образная кривая?

Ну, ответ простой. S-образная кривая просто является S-образной кривой. Он выглядит так:

Sigmoid кривая

Эти кривые называются сигмоидными кривыми

Если мы подгоним такую ​​S-образную кривую к нашей задаче классификации, она будет выглядеть примерно так:

Sigmoid функция для задачи классификации

И эта кривая решает большую часть наших проблем.

  • Кривая практически идеально подходит к данным. Она начинается с 0 и выравнивается на 1.
  • Незначительное изменение в данных не может быть постоянным, так как кривая является нелинейной и обеспечивает хорошую интерполяцию между классами для предсказания.
  • Кривая варьируется от 0 до 1 (как видно на изображении). Следовательно, предсказания могут быть легко преобразованы в вероятности (без отрицательных значений) и использованы для классификации.

Таким образом, вместо подгонки линии регрессии с уравнением: y = ax + b, мы подгоним некоторую функцию этого уравнения, которая даст сигмоидную кривую: f(ax + b)

Есть много функций, которые дают S-образную кривую, но наиболее популярными являются функции Логит и Пробит.

Функция логита: y = 1/(1+e^-(ax + b))

Функция Пробит: y = ⏀(x)

Функция Пробит является функцией накопительного распределения для кривой нормального распределения.

Когда мы рассматриваем наилучшую функцию логита, которая подходит для наших данных для предсказания, мы называем это логистическая регрессия

4. Но почему мы так много говорим о функции логита?

Ну, ответ прост — она использует модель линейного уравнения, обеспечивает прочную сигмоидную кривую и легко дифференцируется. Поскольку она легко дифференцируется, будет проще вычислять градиентный спуск и находить глобальные минимумы для функции стоимости.

5. Почему это называется регрессией?

Функция логита, которая создает сигмоидную кривую (S-образную), делает это путем управления коэффициентами линейной регрессионной линии, т.е. y = ax + b.

Это означает, что Logistic Regression на бэкенде выполняет те же задачи, что и модель Linear Regression

Большинство людей, знакомых с Linear Regression, знают, что цель алгоритма – оценить значения коэффициентов модели, то есть вычислить значения a₁, a₂, a₃, …, b для функции Y = b + a₁X₁ + a₂X₂ + a₃X₃ + ….. +aₙXₙ и подогнать обучающие данные с минимальной ошибкой (RMSE, MSE и т. д.) и предсказать вывод Y.

Ну, Logistic regression делает то же самое под капотом, но с небольшим дополнением. Он получает вывод y после оценки коэффициентов модели и запускает его под функцией (Logit, Probit и т. д.), чтобы получить сигмоидную кривую, что приводит к предсказанию вероятности события.

Поскольку модель Logistic Regression оценивает коэффициенты линейного уравнения регрессии под капотом, а затем проходит через функцию, она называется регрессией, а не алгоритмом классификации.

6. Линейная или нелинейная модель?

Это очень часто задаваемый вопрос и часто вызывает много путаницы.

Сигмоидная кривая – это нелинейная кривая, и если функция имеет нелинейную кривую, то она должна быть нелинейной. Что ж, независимо от вышесказанного, Logistic Regression считается линейной моделью. Это можно доказать с помощью небольшого перестановочного уравнения.

Если мы возьмем логарифм с обеих сторон, а затем переставим уравнение, мы получим

Соотношение y/1-y называется отношением шансов. Это вероятность события, когда происходит(y) по сравнению с вероятностью события, когда не происходит(1-y). Теперь, глядя на правую сторону уравнения, оно образует линейную зависимость (ax + b).

Поскольку логарифм отношения шансов является линейной функцией x, Logistic regression называется линейной моделью.

Но кривая логистической регрессии нелинейна, и поэтому функция, управляющая предсказанием y, является нелинейной, но модель является линейной.

7. Функция потерь для логистической регрессии

Функция потерь, как мы знаем, это функция, которая учитывает ошибку в нашем предсказании. Когда это делается для одной точки данных, она называется функцией потерь, а когда это делается для всего набора данных, она называется функцией стоимости.

Поэтому практически функция потерь для Logistic Regression должна быть способна давать большую ошибку, когда мы предсказываем точку, противоположную фактической, и меньшую ошибку при правильном предсказании. Это означает, что для фактической метки(y) равной 1, если предсказанная метка(ŷ) равна 0.14, то ошибка должна быть огромной, и если предсказанная метка равна 0.98, ошибка должна быть очень маленькой, что означает, что для y=1, если ŷ ближе к 1, ошибка должна быть меньше, а если ŷ ближе к 0, ошибка должна быть высокой.

Приведенное выше утверждение может быть сформулировано следующим образом:

Чтобы указанная формула имела математический смысл, мы определяем Логарифмическую потерю

Для фактической метки(y) = 1, потеря будет равна -log(ŷ), а для y = 0, потеря будет равна -log(1-ŷ).

Пример. Рассмотрим предсказанное значение ŷ = 1 и ŷ = 0

Вышеприведенная функция может быть представлена в терминах следующей формулы:

Вышеуказанное уравнение является функцией потерь для логистической регрессии и называется LogLoss

8. Функция стоимости для логистической регрессии

Функция потерь, вычисленная для всего набора данных, называется функцией стоимости.

где m – количество образцов данных, следовательно, функцию стоимости для логистической регрессии можно записать так:

Итак, это было все о логистической регрессии. Алгоритм логистической регрессии значительно повысил свою популярность в задачах классификации машинного обучения, связанных с медицинской диагностикой, прогнозированием оттока, управлением кредитными рисками и др., благодаря своей простоте в реализации и понимании. Надеюсь, что этот материал вам поможет.

Конец!

Также посмотрите это:

Всеобъемлющая информация о методе опорных векторов

Опорные векторы? Машина? И почему Освальд Мозли не мертв?

VoAGI.com

Все в одном о KNN

Ближайшие соседи? Насколько близки эти соседи? Я надеюсь, они не кусаются!

VoAGI.com