علم البيانات - ارتباط الإحصاء مقابل السببية


الارتباط ليس سببية

الارتباط يقيس العلاقة العددية بين متغيرين.

لا يعني معامل الارتباط العالي (بالقرب من 1) أنه يمكننا بالتأكيد إبرام علاقة فعلية بين متغيرين.

مثال كلاسيكي:

  • خلال فصل الصيف ، يزداد بيع الآيس كريم على الشاطئ
  • في الوقت نفسه ، تزداد أيضًا حوادث الغرق

هل هذا يعني أن زيادة بيع الآيس كريم سبب مباشر لزيادة حوادث الغرق؟


مثال الشاطئ في بايثون

هنا ، أنشأنا مجموعة بيانات خيالية لتجربتها:

مثال

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

انتاج:

الارتباط مقابل السببية

الارتباط مقابل السببية - مثال الشاطئ

بمعنى آخر: هل يمكننا استخدام بيع الآيس كريم للتنبؤ بحوادث الغرق؟

الجواب - على الأرجح لا.

من المحتمل أن هذين المتغيرين يرتبطان ببعضهما البعض عن طريق الخطأ.

ما الذي يسبب الغرق إذن؟

  • السباحين غير المهرة
  • أمواج
  • شد عضلي
  • نوبات صرع
  • عدم وجود رقابة
  • استخدام الكحول
  • إلخ.

دعونا نعكس الحجة:

هل معامل الارتباط المنخفض (قريب من الصفر) يعني أن التغيير في x لا يؤثر على y؟

العودة إلى السؤال:

  • هل يمكننا أن نستنتج أن معدل النبضات لا يؤثر على حرق السعرات الحرارية بسبب معامل الارتباط المنخفض؟

الجواب لا.

هناك فرق مهم بين الارتباط والسببية:

  • الارتباط هو رقم يقيس مدى قرب ارتباط البيانات
  • السببية هي الاستنتاج بأن x تسبب y.

لذلك من المهم التفكير بشكل نقدي في مفهوم السببية عندما نقوم بالتنبؤات!