علم البيانات - ارتباط الإحصاء


علاقه مترابطه

الارتباط يقيس العلاقة بين متغيرين.

ذكرنا أن الغرض من الوظيفة هو التنبؤ بقيمة ، عن طريق تحويل الإدخال (x) إلى الإخراج (f (x)). يمكننا القول أيضًا أن الدالة تستخدم العلاقة بين متغيرين للتنبؤ.


معامل الارتباط

يقيس معامل الارتباط العلاقة بين متغيرين.

لا يمكن أبدًا أن يكون معامل الارتباط أقل من -1 أو أعلى من 1.

  • 1 = هناك علاقة خطية مثالية بين المتغيرات (مثل معدل النبض مقابل السعرات الحرارية)
  • 0 = لا توجد علاقة خطية بين المتغيرات
  • -1 = توجد علاقة خطية سلبية مثالية بين المتغيرات (على سبيل المثال ، ساعات عمل أقل ، تؤدي إلى حرق سعرات حرارية أعلى أثناء جلسة التدريب)

مثال على علاقة خطية مثالية (معامل الارتباط = 1)

سوف نستخدم scatterplot لتصور العلاقة بين Average_Pulse و Calorie_Burnage (استخدمنا مجموعة البيانات الصغيرة للساعة الرياضية مع 10 ملاحظات).

هذه المرة نريد مخططات مبعثرة ، لذلك نغير النوع إلى "مبعثر":

مثال

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

انتاج:

معامل الارتباط = 1

كما رأينا سابقًا ، توجد علاقة خطية مثالية بين متوسط ​​النبض وحرق السعرات الحرارية.



مثال على علاقة خطية سالبة كاملة (معامل الارتباط = -1)

معامل الارتباط = -1

لقد قمنا برسم بيانات خيالية هنا. يمثل المحور السيني مقدار ساعات العمل في وظيفتنا قبل جلسة التدريب. المحور الصادي هو Calorie_Burnage.

إذا عملنا لساعات أطول ، فإننا نميل إلى تقليل حرق السعرات الحرارية لأننا مرهقون قبل جلسة التدريب.

معامل الارتباط هنا هو -1.

مثال

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

مثال على عدم وجود علاقة خطية (معامل الارتباط = 0)

معامل الارتباط = 0

هنا ، قمنا برسم Max_Pulse مقابل Duration من مجموعة full_health_data.

كما ترى ، لا توجد علاقة خطية بين المتغيرين. هذا يعني أن جلسة التدريب الأطول لا تؤدي إلى زيادة Max_Pulse.

معامل الارتباط هنا هو 0.

مثال

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()