Chinaunix首页 | 论坛 | 博客
  • 博客访问: 142
  • 博文数量: 8
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 100
  • 用 户 组: 普通用户
  • 注册时间: 2025-01-15 17:40
文章分类
文章存档

2025年(8)

我的朋友
最近访客

分类: Python/Ruby

2025-01-17 15:43:10

在数据分析和机器学习中,数据清洗是至关重要的一步。它能去除数据中的噪声、缺失值和异常值,提高数据质量。

使用 Python 的pandas库可以轻松实现数据清洗。首先读取数据,假设数据存储在 CSV 文件中:

收起
python
import pandas as pd

data = pd.read_csv('data.csv') 

处理缺失值,可使用dropna()方法删除含有缺失值的行:

收起
python
data = data.dropna() 

或者使用fillna()方法填充缺失值,比如用指定值填充:

收起
python
data = data.fillna(0) 

检测和处理异常值,以箱线图为例来识别异常值:

收起
python
import matplotlib.pyplot as plt

plt.boxplot(data['column_name']) plt.show() 

根据箱线图识别出异常值后,可以选择删除或进行修正。比如删除大于上四分位数 1.5 倍四分位距的值:

收起
python
Q1 = data['column_name'].quantile(0.25) Q3 = data['column_name'].quantile(0.75) IQR = Q3 - Q1
data = data[(data['column_name'] >= Q1 - 1.5 * IQR) & (data['column_name'] <= Q3 + 1.5 * IQR)] 

通过这些操作,能让数据更加 “干净”,为后续的分析和建模提供可靠的数据基础。
阅读(8) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~