7 способов создать матрицу корреляции в Python
7 способов создания матрицы корреляции в Python
Не будьте ученым по данным, который всегда разбрасывает одну и ту же матрицу корреляции!
Будем честными, обычная ванильная матрица корреляции скучна. Также скучен популярный pairplot. Полезно, но скучно. Не хочу ничего плохого сказать о ванильных десертах 🍦 🍨 🍦 🍨 🍦
Если вы согласны, то этот статья для вас — она поможет вам продвинуться и разнообразить вашу игру с матрицей корреляции.
Матрицы корреляции являются фундаментальными инструментами для анализа данных. Они позволяют нам понять, как связаны различные переменные между собой. Вот десять способов создания матрицы корреляции в Python с использованием разных библиотек и наборов данных.
1) Использование Pandas
Возможно, самый простой вариант. Это простой вариант, потому что он требует всего лишь одного простого метода на любом объекте DataFrame Pandas. Поскольку большинство из нас в области анализа данных используют Pandas для наших данных, это часто является одним из самых быстрых и простых способов изучения корреляций ваших данных.
- 15 лучших ChatGPT-запросов для Twitter (X)
- Получайте деньги трансляции ‘PAYDAY 3’ на GeForce NOW
- «В Omniverse выпуск альфа-версии Blender 4.0 открывает новую эру искусства с использованием OpenUSD»
import pandas as pdimport seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr(numeric_only=True)correlation_matrix
![Изображение: Авторская иллюстрация, созданная с помощью показанного здесь кода.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*rIkJyNq1pKFNnebsCCq9Pw.png)
Вы можете спросить: “а где p-значения?” Если вы такой (как и я, когда вижу этот вывод), прочтите эту статью до конца, чтобы получить советы о том, как также сообщать о п-значениях.
2) Использование NumPy
Когда вам просто нужна матрица и вам не нужны метки столбцов или строк.
import seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr()sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
Для результата, который будет выглядеть следующим образом.
array([[ 1. , -0.8051, -0.7784, -0.8322, 0.4233], [-0.8051, 1. , 0.8972, 0.9329, -0.5438], [-0.7784, 0.8972, 1. , 0.86453, -0.6891], [-0.8322, 0.9329, 0.86453, 1. , -0.4168], [ 0.4233, -0.5438, -0.6891, -0.4168, 1. ]])