علم البيانات - جدول الانحدار: R-Squared
R - تربيع
يصف R-Squared و Adjusted R-Squared مدى ملاءمة نموذج الانحدار الخطي لنقاط البيانات:
قيمة R-Squared دائمًا ما بين 0 إلى 1 (0٪ إلى 100٪).
- تعني قيمة R-Squared العالية أن العديد من نقاط البيانات قريبة من خط دالة الانحدار الخطي.
- تعني قيمة R-Squared المنخفضة أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.
مثال مرئي لقيمة R منخفضة - القيمة التربيعية (0.00)
يُظهر نموذج الانحدار قيمة R-Squared تساوي صفرًا ، مما يعني أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.
يمكن تصور ذلك عندما نرسم وظيفة الانحدار الخطي من خلال نقاط البيانات لـ Average_Pulse و Calorie_Burnage.
مثال مرئي لقيمة R عالية - تربيع القيمة (0.79)
ومع ذلك ، إذا رسمنا Duration و Calorie_Burnage ، فإن R-Squared يزيد. هنا ، نرى أن نقاط البيانات قريبة من خط دالة الانحدار الخطي:
هذا هو الكود في بايثون:
مثال
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
ملخص - توقع حرق السعرات الحرارية مع معدل النبض
كيف يمكننا تلخيص دالة الانحدار الخطي باستخدام Average_Pulse كمتغير توضيحي؟
- معامل 0.3296 ، مما يعني أن النبضة المتوسطة لها تأثير ضئيل للغاية على حرق السعرات الحرارية.
- قيمة P عالية (0.824) ، مما يعني أنه لا يمكننا إبرام علاقة بين Average_Pulse و Calorie_Burnage.
- قيمة R التربيعية تساوي 0 ، مما يعني أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.