在数据分析和机器学习中,数据清洗是至关重要的一步。它能去除数据中的噪声、缺失值和异常值,提高数据质量。
使用 Python 的pandas库可以轻松实现数据清洗。首先读取数据,假设数据存储在 CSV 文件中:
import pandas as pd
data = pd.read_csv('data.csv')
处理缺失值,可使用dropna()方法删除含有缺失值的行:
或者使用fillna()方法填充缺失值,比如用指定值填充:
检测和处理异常值,以箱线图为例来识别异常值:
import matplotlib.pyplot as plt
plt.boxplot(data['column_name']) plt.show()
根据箱线图识别出异常值后,可以选择删除或进行修正。比如删除大于上四分位数 1.5 倍四分位距的值:
Q1 = data['column_name'].quantile(0.25) Q3 = data['column_name'].quantile(0.75) IQR = Q3 - Q1
data = data[(data['column_name'] >= Q1 - 1.5 * IQR) & (data['column_name'] <= Q3 + 1.5 * IQR)]
通过这些操作,能让数据更加 “干净”,为后续的分析和建模提供可靠的数据基础。