Как найти важность функций для модели логистической регрессии?

У меня есть модель бинарного предсказания, подготовленная алгоритмом логистической регрессии. Я хочу знать, какие функции (предиктора) важнее для решения положительного или отрицательного класса. Я знаю, что параметр coef_ исходит из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить значения coef_ в терминах важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии, и я не знаю, что это такое.

Допустим, что есть такие функции, как размер опухоли, вес опухоли и т. Д., Чтобы принять решение о тестовом случае, таком как злокачественное или не злокачественное. Я хочу знать, какая из функций более важна для злокачественного и не злокачественного предсказания. Это имеет смысл?

One Solution collect form web for “Как найти важность функций для модели логистической регрессии?”

Один из простейших вариантов получить представление о «влиянии» данного параметра в модели линейной классификации (логистике, являющейся одним из таких), состоит в том, чтобы рассмотреть величину его коэффициента, умноженную на стандартное отклонение соответствующего параметра в данных ,

Рассмотрим этот пример:

 import numpy as np from sklearn.linear_model import LogisticRegression x1 = np.random.randn(100) x2 = 4*np.random.randn(100) x3 = 0.5*np.random.randn(100) y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0 X = np.column_stack([x1, x2, x3]) m = LogisticRegression() m.fit(X, y) # The estimated coefficients will all be around 1: print(m.coef_) # Those values, however, will show that the second parameter # is more influential print(np.std(X, 0)*m.coef_) 

Альтернативный способ получить аналогичный результат – изучить коэффициенты модели, соответствующие стандартизованным параметрам:

 m.fit(X / np.std(X, 0), y) print(m.coef_) 

Обратите внимание, что это самый базовый подход, и существует целый ряд других методов поиска значимости признаков или влияния параметров (с использованием значений p, оценки начальной загрузки, различных «дискриминационных показателей» и т. Д.).

Я уверен, что вы получите более интересные ответы на странице https://stats.stackexchange.com/ .

  • Смущает X в GaussianHMM.fit ()
  • Как обновить пакет scikit-learn в анаконде
  • Подпрограмма, которая принимает все предопределенные переменные из «основной программы»,
  • Есть ли способ использовать рекурсивный выбор функций с нелинейными моделями с scikit-learn?
  • использование матрицы замешательства в качестве показателя оценки в перекрестной проверке в scikit learn
  • Ошибка Python Keras cross_val_score
  • SciPy NumPy и SciKit-learn, создают разреженную матрицу
  • Работа с подготовкой данных о сумме слова для регрессии
  • Python - лучший язык программирования в мире.