7 способов создать матрицу корреляции в Python

7 способов создания матрицы корреляции в Python

Не будьте ученым по данным, который всегда разбрасывает одну и ту же матрицу корреляции!

Будем честными, обычная ванильная матрица корреляции скучна. Также скучен популярный pairplot. Полезно, но скучно. Не хочу ничего плохого сказать о ванильных десертах 🍦 🍨 🍦 🍨 🍦

Фото от Paul Stollery на Unsplash. Спящий кот!

Если вы согласны, то этот статья для вас — она поможет вам продвинуться и разнообразить вашу игру с матрицей корреляции.

Матрицы корреляции являются фундаментальными инструментами для анализа данных. Они позволяют нам понять, как связаны различные переменные между собой. Вот десять способов создания матрицы корреляции в Python с использованием разных библиотек и наборов данных.

1) Использование Pandas

Возможно, самый простой вариант. Это простой вариант, потому что он требует всего лишь одного простого метода на любом объекте DataFrame Pandas. Поскольку большинство из нас в области анализа данных используют Pandas для наших данных, это часто является одним из самых быстрых и простых способов изучения корреляций ваших данных.

import pandas as pdimport seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr(numeric_only=True)correlation_matrix
Изображение: Авторская иллюстрация, созданная с помощью показанного здесь кода.

Вы можете спросить: “а где p-значения?” Если вы такой (как и я, когда вижу этот вывод), прочтите эту статью до конца, чтобы получить советы о том, как также сообщать о п-значениях.

2) Использование NumPy

Когда вам просто нужна матрица и вам не нужны метки столбцов или строк.

import seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr()sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

Для результата, который будет выглядеть следующим образом.

array([[ 1.    , -0.8051, -0.7784, -0.8322,  0.4233],       [-0.8051,  1.    ,  0.8972,  0.9329, -0.5438],       [-0.7784,  0.8972,  1.    , 0.86453, -0.6891],       [-0.8322,  0.9329, 0.86453,  1.    , -0.4168],       [ 0.4233, -0.5438, -0.6891, -0.4168,  1.    ]])

3) Визуализация с помощью Seaborn