علم البيانات - تباين الإحصاء


فرق

التباين هو رقم آخر يشير إلى مدى انتشار القيم.

في الواقع ، إذا أخذت الجذر التربيعي للتباين ، فستحصل على الانحراف المعياري. أو بالعكس ، إذا ضربت الانحراف المعياري في نفسه ، ستحصل على التباين!

سنستخدم أولاً مجموعة البيانات المكونة من 10 ملاحظات لإعطاء مثال على كيفية حساب التباين:

مدة متوسط ​​النبض Max_Pulse السعرات الحرارية ساعات_العمل ساعات_النوم
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

غالبًا ما يتم تمثيل التباين بالرمز Sigma Square: σ ^ 2


الخطوة 1 لحساب التباين: أوجد المتوسط

نريد إيجاد تباين معدل النبضات.

1. ابحث عن المتوسط:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

المتوسط ​​هو 102.5


الخطوة 2: لكل قيمة - أوجد الفرق عن المتوسط

2. أوجد الفرق عن المتوسط ​​لكل قيمة:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

الخطوة 3: لكل اختلاف - أوجد القيمة التربيعية

3. أوجد القيمة التربيعية لكل فرق:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

ملاحظة: يجب علينا تربيع القيم للحصول على إجمالي السبريد.



الخطوة 4: الفرق هو متوسط ​​عدد هذه القيم التربيعية

4. جمع القيم التربيعية وإيجاد المتوسط:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

الفرق هو 206.25.


استخدم Python للعثور على تباين health_data

يمكننا استخدام var()الدالة من Numpy للعثور على التباين (تذكر أننا نستخدم الآن مجموعة البيانات الأولى مع 10 ملاحظات):

مثال

import numpy as np

var = np.var(health_data)
print(var)

الإخراج:

فرق

استخدم Python للعثور على تباين مجموعة البيانات الكاملة

هنا نحسب التباين لكل عمود لمجموعة البيانات الكاملة:

مثال

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

الإخراج:

فرق