مجموعات البيانات
- المجموعات هي مجموعات من البيانات المتشابهة
- التجميع هو نوع من التعلم غير الخاضع للإشراف
- يصف معامل الارتباط قوة العلاقة.
عناقيد المجموعات
المجموعات هي مجموعات من البيانات على أساس التشابه.
غالبًا ما يمكن تصنيف نقاط البيانات المجمعة معًا في رسم بياني إلى مجموعات.
في الرسم البياني أدناه يمكننا التمييز بين 3 مجموعات مختلفة:
تحديد المجموعات
يمكن أن تحتوي المجموعات العنقودية على الكثير من المعلومات القيمة ، لكن المجموعات تأتي في جميع أنواع الأشكال ، فكيف يمكننا التعرف عليها؟
الطريقتان الرئيسيتان هما:
- استخدام التخيل
- باستخدام خوارزمية التجميع
تجمع
التجميع هو نوع من التعلم غير الخاضع للإشراف .
المجموعات تحاول:
- جمع البيانات المتشابهة في مجموعات
- جمع البيانات المتباينة في مجموعات أخرى
طرق التجميع
- طريقة الكثافة
- الطريقة الهرمية
- طريقة التقسيم
- الطريقة القائمة على الشبكة
تعتبر طريقة الكثافة أن النقاط الموجودة في مناطق كثيفة أكثر تشابهًا واختلافًا من النقاط الموجودة في منطقة أقل كثافة. طريقة الكثافة لديها دقة جيدة. كما أن لديها القدرة على دمج الكتل.
هناك خوارزميتان شائعتان هما DBSCAN و OPTICS.
الطريقة الهرمية تشكل المجموعات في هيكل من نوع الشجرة. يتم تشكيل مجموعات جديدة باستخدام مجموعات مكونة مسبقًا.
هناك خوارزميتان شائعتان هما CURE و BIRCH.
الطريقة المستندة إلى الشبكة تصوغ البيانات في عدد محدود من الخلايا التي تشكل بنية تشبه الشبكة.
هناك خوارزميتان شائعتان هما CLIQUE و STING
أسلوب التقسيم يقسم الكائنات إلى مجموعات k ويشكل كل قسم كتلة واحدة.
إحدى الخوارزميات الشائعة هي CLARANS.
معامل الارتباط
يصف معامل الارتباط (r) قوة واتجاه العلاقة الخطية ومتغيرات x / y على مخطط التشتت.
تكون قيمة r دائمًا بين -1 و +1:
-1.00 | انحدار مثالي | علاقة خطية سالبة. |
-0.70 | منحدر قوي | علاقة خطية سالبة. |
-0.50 | انحدار معتدل | علاقة خطية سالبة. |
-0.30 | منحدر ضعيف | علاقة خطية سالبة. |
0 | لا علاقة خطية. | |
+0.30 | شاقة ضعيفة | علاقة خطية إيجابية. |
+0.50 | مرتفع معتدل | علاقة خطية إيجابية. |
+0.70 | شاقة قوية | علاقة خطية إيجابية. |
+1.00 | شاقة مثالية | علاقة خطية إيجابية. |
شاقة مثالية +1.00 :
انحدار مثالي -1.00 :
ارتفاع قوي +0.61 :
لا علاقة :