علم البيانات - مصفوفة ارتباط الإحصاء


مصفوفة الارتباط

المصفوفة هي مصفوفة من الأرقام مرتبة في صفوف وأعمدة.

مصفوفة الارتباط هي ببساطة جدول يوضح معاملات الارتباط بين المتغيرات.

هنا ، يتم تمثيل المتغيرات في الصف الأول وفي العمود الأول:

مصفوفة الارتباط

استخدم الجدول أعلاه بيانات من مجموعة البيانات الصحية الكاملة.

ملاحظات:

  • نلاحظ أن Duration و Calorie_Burnage يرتبطان ارتباطًا وثيقًا ، مع معامل ارتباط يبلغ 0.89. هذا منطقي كلما طالت مدة تدريبنا ، كلما حرقنا المزيد من السعرات الحرارية
  • نلاحظ أنه لا توجد علاقات خطية تقريبًا بين متوسط ​​النبض و Calorie_Burnage (معامل الارتباط 0.02)
  • هل يمكننا أن نستنتج أن معدل النبضات لا يؤثر على حرق السعرات الحرارية؟ لا. سنعود للإجابة على هذا السؤال لاحقًا!

مصفوفة الارتباط في بايثون

يمكننا استخدام corr()الدالة في Python لإنشاء مصفوفة ارتباط. نستخدم أيضًا round()الدالة لتقريب الناتج إلى رقمين عشريين:

مثال

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

انتاج:

مصفوفة الارتباط

باستخدام خريطة التمثيل اللوني

يمكننا استخدام خريطة التمثيل اللوني لتصور الارتباط بين المتغيرات:

الارتباط الحراري

كلما اقترب معامل الارتباط من 1 ، زادت اخضرار المربعات.

كلما اقترب معامل الارتباط من -1 ، كلما ازداد لون المربعات.


استخدم Seaborn لإنشاء خريطة حرارية

يمكننا استخدام مكتبة Seaborn لإنشاء خريطة حرارة الارتباط (Seaborn هي مكتبة تصور تعتمد على matplotlib):

مثال

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

شرح المثال:

  • استيراد مكتبة seaborn as sns.
  • استخدم مجموعة full_health_data.
  • استخدم sns.heatmap () لإخبار Python أننا نريد خريطة حرارية لتصور مصفوفة الارتباط.
  • استخدم مصفوفة الارتباط. تحديد القيم القصوى والدنيا لخريطة الحرارة. حدد أن 0 هو المركز.
  • حدد الألوان باستخدام sns.diverging_palette. n = 500 تعني أننا نريد 500 نوع من الألوان في نفس لوحة الألوان.
  • مربع = صحيح يعني أننا نريد رؤية المربعات.