استكشاف مكتبة Pandas في Python لتحليل البيانات

Pandas هي مكتبة بايثون قوية تستخدم لمعالجة البيانات وتحليلها. وهي توفر هياكل البيانات والوظائف اللازمة للعمل مع البيانات المنظمة بسلاسة. وبفضل هياكل البيانات سهلة الاستخدام، تعد Pandas مفيدة بشكل خاص لتنظيف البيانات وتحويلها وتحليلها. تستكشف هذه المقالة الميزات الأساسية لـ Pandas وكيف يمكنك استخدامها للتعامل مع البيانات بكفاءة.

البدء مع الباندا

للبدء في استخدام Pandas، يجب عليك تثبيته باستخدام pip. يمكنك القيام بذلك عن طريق تشغيل الأمر التالي:

pip install pandas

هياكل البيانات الأساسية

يوفر Pandas بنيتين أساسيتين للبيانات: Series وDataFrame.

مسلسل

السلسلة عبارة عن كائن يشبه المصفوفة أحادية البعد ويمكنه تخزين أنواع مختلفة من البيانات، بما في ذلك الأعداد الصحيحة والسلاسل والأعداد ذات الفاصلة العائمة. كل عنصر في السلسلة له فهرس مرتبط به.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

إطار البيانات

إطار البيانات هو هيكل بيانات جدولي ثنائي الأبعاد، قابل للتغيير في الحجم، وغير متجانس، مع محاور مُسمّاة (صفوف وأعمدة). وهو في الأساس عبارة عن مجموعة من السلاسل.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

معالجة البيانات

يوفر Pandas مجموعة واسعة من الوظائف للتعامل مع البيانات، بما في ذلك الفهرسة والتقطيع والتصفية.

الفهرسة والتقطيع

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

تصفية البيانات

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

تنظيف البيانات

يعد تنظيف البيانات خطوة أساسية في تحليل البيانات. توفر Pandas عدة طرق للتعامل مع البيانات المفقودة والسجلات المكررة وتحويل البيانات.

معالجة البيانات المفقودة

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

إزالة التكرارات

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

خاتمة

Pandas هي أداة أساسية لتحليل البيانات في Python. تجعل هياكل البيانات ووظائفها القوية من السهل التعامل مع البيانات ومعالجتها وتحليلها. من خلال إتقان Pandas، يمكنك تحسين قدرات تحليل البيانات بشكل كبير وتبسيط سير عملك.