الباندا - إرتباطات البيانات
إيجاد العلاقات
تعد الطريقة جانبًا رائعًا من جوانب وحدة Pandas corr()
.
تحسب الطريقة corr()
العلاقة بين كل عمود في مجموعة البيانات الخاصة بك.
تستخدم الأمثلة في هذه الصفحة ملف CSV يسمى: "data.csv".
تنزيل data.csv . أو افتح data.csv
مثال
إظهار العلاقة بين الأعمدة:
df.corr()
نتيجة
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
ملاحظة:
الطريقة corr()
تتجاهل الأعمدة "غير الرقمية".
وأوضح النتيجة
نتيجة corr()
الطريقة هي جدول به الكثير من الأرقام التي تمثل مدى جودة العلاقة بين عمودين.
العدد يختلف من -1 إلى 1.
1 يعني أن هناك علاقة من 1 إلى 1 (ارتباط مثالي) ، وبالنسبة لمجموعة البيانات هذه ، في كل مرة ترتفع فيها قيمة في العمود الأول ، ترتفع الأخرى أيضًا.
0.9 هي أيضًا علاقة جيدة ، وإذا قمت بزيادة قيمة واحدة ، فمن المحتمل أن تزيد القيمة الأخرى أيضًا.
ستكون العلاقة -0.9 جيدة مثل 0.9 ، ولكن إذا قمت بزيادة قيمة واحدة ، فمن المحتمل أن تنخفض القيمة الأخرى.
0.2 يعني عدم وجود علاقة جيدة ، مما يعني أنه إذا ارتفعت قيمة ما لا يعني أن الأخرى سوف.
ما هو الارتباط الجيد؟
يعتمد ذلك على الاستخدام ، لكنني أعتقد أنه من الآمن القول أنه يجب أن يكون لديك على الأقل 0.6
(أو -0.6
) تسميه ارتباطًا جيدًا.
الارتباط المثالي:
يمكننا أن نرى أن "Duration" و "Duration" حصلتا على الرقم 1.000000
، وهو أمر منطقي ، فلكل عمود دائمًا علاقة مثالية مع نفسه.
ارتباط جيد:
هناك علاقة متبادلة بين "المدة" و "السعرات الحرارية" 0.922721
، وهو ارتباط جيد جدًا ، ويمكننا توقع أنه كلما طالت مدة التمرين ، زادت السعرات الحرارية التي تحرقها ، والعكس بالعكس: إذا حرقت الكثير من السعرات الحرارية ، ربما كان لديه عمل طويل.
ارتباط سيء:
حصلت "Duration" و "Maxpulse" على 0.009403
ارتباط ، وهو ارتباط سيء للغاية ، مما يعني أنه لا يمكننا توقع الحد الأقصى للنبض بمجرد النظر إلى مدة التمرين ، والعكس صحيح.
الحصول على شهادة!
10 دولارات ENROLL