علم البيانات - جدول الانحدار: R-Squared


R - تربيع

يصف R-Squared و Adjusted R-Squared مدى ملاءمة نموذج الانحدار الخطي لنقاط البيانات:

جدول الانحدار - احصائيات المعاملات

قيمة R-Squared دائمًا ما بين 0 إلى 1 (0٪ إلى 100٪).

  • تعني قيمة R-Squared العالية أن العديد من نقاط البيانات قريبة من خط دالة الانحدار الخطي.
  • تعني قيمة R-Squared المنخفضة أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.

مثال مرئي لقيمة R منخفضة - القيمة التربيعية (0.00)

يُظهر نموذج الانحدار قيمة R-Squared تساوي صفرًا ، مما يعني أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.

يمكن تصور ذلك عندما نرسم وظيفة الانحدار الخطي من خلال نقاط البيانات لـ Average_Pulse و Calorie_Burnage.

انخفاض R - القيمة التربيعية (0.00)

مثال مرئي لقيمة R عالية - تربيع القيمة (0.79)

ومع ذلك ، إذا رسمنا Duration و Calorie_Burnage ، فإن R-Squared يزيد. هنا ، نرى أن نقاط البيانات قريبة من خط دالة الانحدار الخطي:

انخفاض R - القيمة التربيعية (0.00)

هذا هو الكود في بايثون:

مثال

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

ملخص - توقع حرق السعرات الحرارية مع معدل النبض

كيف يمكننا تلخيص دالة الانحدار الخطي باستخدام Average_Pulse كمتغير توضيحي؟

  • معامل 0.3296 ، مما يعني أن النبضة المتوسطة لها تأثير ضئيل للغاية على حرق السعرات الحرارية.
  • قيمة P عالية (0.824) ، مما يعني أنه لا يمكننا إبرام علاقة بين Average_Pulse و Calorie_Burnage.
  • قيمة R التربيعية تساوي 0 ، مما يعني أن خط دالة الانحدار الخطي لا يناسب البيانات جيدًا.