الباندا - تنظيف الخلايا الفارغة


خلايا فارغة

من المحتمل أن تعطيك الخلايا الفارغة نتيجة خاطئة عند تحليل البيانات.


إزالة الصفوف

تتمثل إحدى طرق التعامل مع الخلايا الفارغة في إزالة الصفوف التي تحتوي على خلايا فارغة.

عادة ما يكون هذا جيدًا ، نظرًا لأن مجموعات البيانات يمكن أن تكون كبيرة جدًا ، ولن يكون لإزالة بعض الصفوف تأثير كبير على النتيجة.

مثال

إرجاع إطار بيانات جديد بدون خلايا فارغة:

import pandas as pd

df = pd.read_csv('data.csv')

new_df = df.dropna()

print(new_df.to_string())

في أمثلة التنظيف الخاصة بنا ، سنستخدم ملف CSV يسمى "dirtydata.csv".

تنزيل dirtydata.csv . أو افتح dirtydata.csv

ملاحظة: بشكل افتراضي ، تقوم dropna()الطريقة بإرجاع إطار بيانات جديد ولن تغير الأصل.

إذا كنت تريد تغيير DataFrame الأصلي ، فاستخدم inplace = Trueالوسيطة:

مثال

قم بإزالة كافة الصفوف بقيم NULL:

import pandas as pd

df = pd.read_csv('data.csv')

df.dropna(inplace = True)

print(df.to_string())

ملاحظة: الآن ، dropna(inplace = True)لن يُرجع إطار DataFrame جديدًا ، ولكنه سيزيل جميع الصفوف التي تحتوي على قيم NULL من DataFrame الأصلي.


استبدل القيم الفارغة

هناك طريقة أخرى للتعامل مع الخلايا الفارغة وهي إدخال قيمة جديدة بدلاً من ذلك.

بهذه الطريقة لن تضطر إلى حذف صفوف بأكملها لمجرد وجود بعض الخلايا الفارغة.

تسمح fillna()لنا الطريقة باستبدال الخلايا الفارغة بقيمة:

مثال

استبدل القيم الخالية بالرقم 130:

import pandas as pd

df = pd.read_csv('data.csv')

df.fillna(130, inplace = True)

استبدل فقط للأعمدة المحددة

يستبدل المثال أعلاه جميع الخلايا الفارغة في إطار البيانات بالكامل.

لاستبدال القيم الفارغة لعمود واحد فقط ، حدد اسم العمود لـ DataFrame:

مثال

استبدل القيم الخالية في أعمدة "السعرات الحرارية" بالرقم 130:

import pandas as pd

df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

w3schools CERTIFIED . 2021

الحصول على شهادة!

أكمل وحدات Pandas ، وقم بإجراء التمارين ، وقم بإجراء الاختبار ، وستصبح معتمدًا من w3schools!

10 دولارات ENROLL

استبدل باستخدام المتوسط ​​أو الوسيط أو الوضع

من الطرق الشائعة لاستبدال الخلايا الفارغة حساب القيمة المتوسطة أو الوسيطة أو قيمة الوضع للعمود.

تستخدم Pandas أساليب mean() median()وطرق mode()حساب القيم ذات الصلة لعمود محدد:

مثال

احسب MEAN ، واستبدل أي قيم فارغة بها:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

المتوسط = متوسط ​​القيمة (مجموع كل القيم مقسومًا على عدد القيم).

مثال

احسب MEDIAN ، واستبدل أي قيم فارغة به:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)

الوسيط = القيمة الموجودة في المنتصف ، بعد أن تقوم بفرز جميع القيم تصاعديًا.

مثال

احسب الوضع ، واستبدل أي قيم فارغة به:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

الوضع = القيمة التي تظهر بشكل متكرر.