Обнаружение мультиколлинеарности в наборах данных с использованием статистического тестирования.

Выявление мультиколлинеарности в наборах данных с помощью статистического тестирования.

Определение мультиколлинеарности в наборах данных является важным шагом, но также представляет собой сложную задачу. Я покажу, как обнаружить переменные с похожим поведением в смешанных наборах данных и как глубже исследовать взаимосвязи с помощью интерактивных диаграмм.

Фото Эрола Ахмеда на Unsplash

Понимание силы взаимосвязи между переменными в наборе данных важно, потому что переменные с статистически похожим поведением могут повлиять на надежность моделей. Для удаления так называемой мультиколлинеарности мы можем использовать меры корреляции для непрерывных переменных. Однако, когда у нас также есть категориальные переменные и, таким образом, смешанные наборы данных, становится еще сложнее проверять мультиколлинеарность. Для проверки ассоциаций между переменными в смешанных наборах данных могут использоваться статистические тесты, такие как гипергеометрический тест и тест Манна-Уитни U. Несмотря на то, что это замечательно, это требует различных промежуточных шагов, таких как набор данных переменных, кодирование «one-hot encoding» и множественная коррекция тестов, среди прочего. Весь этот процесс реализован в методе, названном HNet. В этом блоге я покажу, как обнаружить переменные с похожим поведением, чтобы установить мультиколлинеарность.

Понимание данных является важным шагом.

Реальный мир данных часто содержит измерения как непрерывные, так и дискретные значения. Мы должны просмотреть каждую переменную и использовать здравый смысл, чтобы определить, могут ли переменные быть связаны между собой. Но когда у нас есть десятки (или более) переменных, каждая переменная может иметь несколько состояний в каждой категории, становится трудоемким и ошибочным проверять все переменные вручную. Мы можем автоматизировать эту задачу, выполнив интенсивные предварительные обработки данных вместе с методами статистического тестирования. В этом случае приходит на помощь HNet [1, 2], который использует статистические тесты для определения значимых отношений всех переменных в наборе данных. Он позволяет вам ввести в модель неструктурированные исходные данные, а затем выдает сеть, которая проливает свет на сложные отношения между переменными. Перейдем к следующему разделу, где я объясню, как обнаружить переменные с похожим поведением с использованием статистических…