Понимание независимости и ее критическая роль в причинно-следственной инференции и причинной валидации

Понимание значимости независимости и ее критическая роль в причинно-следственной инференции и причинной валидации

Пошаговое руководство по пониманию концепции независимости и применению ее для проверки направленных ациклических графов в качестве причинной валидации с использованием Python

Фото от Towfiqu barbhuiya на Unsplash

Предыстория

В недавней статье автор исследовал и объяснил, как концепцию зависимости можно использовать для проверки предложенного направленного ациклического графа (DAG) на основе набора данных, чтобы идентифицировать ложные связи в графе, то есть причинные связи, предложенные DAG, которых нет в данных.

В этой второй части будет применен противоположный (но одинаково важный) концепт, а именно, как использовать независимость, чтобы выявить отсутствующие связи. Это причинные связи, которые не появляются в предложенном DAG, но фактически существуют в данных и должны быть добавлены обратно в DAG, чтобы он был полным и правильным.

Введение

Каузальный вывод – это развивающееся направление в области науки о данных, которое занимается определением причинно-следственных связей между событиями и результатами, и он имеет потенциал значительно увеличить ценность, которую машинное обучение может создать для организаций.

Например, традиционный алгоритм машинного обучения может предсказывать, какие заемщики по кредитам склонны к неплатежеспособности, что позволяет предпринять превентивные меры с клиентами. Однако, хотя этот алгоритм полезен для снижения неплатежей по кредитам, у него нет представления о причинах их возникновения, и хотя превентивные меры полезны, знание причин дефолтов позволило бы устранить коренные причины. В этом мире превентивные меры могут стать ненужными, поскольку факторы, которые привели к дефолту, были навсегда устранены.

Это обещание каузального вывода и почему он может принести значительное влияние и результаты организациям, которые могут осуществить его потенциал.

Существует несколько различных подходов, но наиболее распространенный подход, как правило, начинается с дополнения данных “Directed Acyclic Graph” (DAG), который содержит и визуализирует причинные связи в данных, а затем использует техники каузального вывода, чтобы задать…