مجموعات البيانات

  • المجموعات هي مجموعات من البيانات المتشابهة
  • التجميع هو نوع من التعلم غير الخاضع للإشراف
  • يصف معامل الارتباط قوة العلاقة.

عناقيد المجموعات

المجموعات هي مجموعات من البيانات على أساس التشابه.

غالبًا ما يمكن تصنيف نقاط البيانات المجمعة معًا في رسم بياني إلى مجموعات.

في الرسم البياني أدناه يمكننا التمييز بين 3 مجموعات مختلفة:


تحديد المجموعات

يمكن أن تحتوي المجموعات العنقودية على الكثير من المعلومات القيمة ، لكن المجموعات تأتي في جميع أنواع الأشكال ، فكيف يمكننا التعرف عليها؟

الطريقتان الرئيسيتان هما:

  • استخدام التخيل
  • باستخدام خوارزمية التجميع

تجمع

التجميع هو نوع من التعلم غير الخاضع للإشراف .

المجموعات تحاول:

  • جمع البيانات المتشابهة في مجموعات
  • جمع البيانات المتباينة في مجموعات أخرى

طرق التجميع

  • طريقة الكثافة
  • الطريقة الهرمية
  • طريقة التقسيم
  • الطريقة القائمة على الشبكة

تعتبر طريقة الكثافة أن النقاط الموجودة في مناطق كثيفة أكثر تشابهًا واختلافًا من النقاط الموجودة في منطقة أقل كثافة. طريقة الكثافة لديها دقة جيدة. كما أن لديها القدرة على دمج الكتل.
هناك خوارزميتان شائعتان هما DBSCAN و OPTICS.

الطريقة الهرمية تشكل المجموعات في هيكل من نوع الشجرة. يتم تشكيل مجموعات جديدة باستخدام مجموعات مكونة مسبقًا.
هناك خوارزميتان شائعتان هما CURE و BIRCH.

الطريقة المستندة إلى الشبكة تصوغ البيانات في عدد محدود من الخلايا التي تشكل بنية تشبه الشبكة.
هناك خوارزميتان شائعتان هما CLIQUE و STING

أسلوب التقسيم يقسم الكائنات إلى مجموعات k ويشكل كل قسم كتلة واحدة.
إحدى الخوارزميات الشائعة هي CLARANS.


معامل الارتباط

يصف معامل الارتباط (r) قوة واتجاه العلاقة الخطية ومتغيرات x / y على مخطط التشتت.

تكون قيمة r دائمًا بين -1 و +1:

-1.00انحدار مثاليعلاقة خطية سالبة.
-0.70منحدر قويعلاقة خطية سالبة.
-0.50انحدار معتدلعلاقة خطية سالبة.
-0.30منحدر ضعيفعلاقة خطية سالبة.
0لا علاقة خطية.
+0.30شاقة ضعيفةعلاقة خطية إيجابية.
+0.50مرتفع معتدلعلاقة خطية إيجابية.
+0.70شاقة قويةعلاقة خطية إيجابية.
+1.00شاقة مثاليةعلاقة خطية إيجابية.

شاقة مثالية +1.00 :

انحدار مثالي -1.00 :

"

ارتفاع قوي +0.61 :

لا علاقة :