تعلم الآلة - توزيع البيانات
توزيع البيانات
في وقت سابق من هذا البرنامج التعليمي ، عملنا مع كميات صغيرة جدًا من البيانات في أمثلةنا ، فقط لفهم المفاهيم المختلفة.
في العالم الحقيقي ، تكون مجموعات البيانات أكبر بكثير ، ولكن قد يكون من الصعب جمع بيانات العالم الحقيقي ، على الأقل في مرحلة مبكرة من المشروع.
كيف يمكننا الحصول على مجموعات البيانات الضخمة؟
لإنشاء مجموعات بيانات ضخمة للاختبار ، نستخدم وحدة Python NumPy ، والتي تأتي مع عدد من الطرق لإنشاء مجموعات بيانات عشوائية من أي حجم.
مثال
أنشئ مصفوفة تحتوي على 250 تعويمًا عشوائيًا بين 0 و 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
الرسم البياني
لتصور مجموعة البيانات ، يمكننا رسم رسم بياني بالبيانات التي جمعناها.
سنستخدم وحدة Python النمطية Matplotlib لرسم مخطط بياني.
تعرف على وحدة Matplotlib في دروسنا Matplotlib .
مثال
ارسم مدرج تكراري:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
نتيجة:
شرح الرسم البياني
نستخدم المصفوفة من المثال أعلاه لرسم مخطط بياني من 5 أشرطة.
يمثل الشريط الأول عدد القيم في المصفوفة بين 0 و 1.
يمثل الشريط الثاني عدد القيم بين 1 و 2.
إلخ.
وهو ما يعطينا هذه النتيجة:
- 52 قيمة بين 0 و 1
- 48 قيمة بين 1 و 2
- 49 قيمة بين 2 و 3
- 51 قيمة بين 3 و 4
- 50 قيمة بين 4 و 5
ملاحظة: قيم الصفيف هي أرقام عشوائية ولن تظهر نفس النتيجة بالضبط على جهاز الكمبيوتر الخاص بك.
توزيعات البيانات الضخمة
لا تعتبر المصفوفة التي تحتوي على 250 قيمة كبيرة جدًا ، ولكنك الآن تعرف كيفية إنشاء مجموعة عشوائية من القيم ، وعن طريق تغيير المعلمات ، يمكنك إنشاء مجموعة البيانات بالحجم الذي تريده.
مثال
أنشئ مصفوفة من 100000 رقم عشوائي ، واعرضها باستخدام مدرج تكراري مع 100 شريط:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()