Chinaunix首页 | 论坛 | 博客
  • 博客访问: 359220
  • 博文数量: 15
  • 博客积分: 10020
  • 博客等级: 上将
  • 技术积分: 630
  • 用 户 组: 普通用户
  • 注册时间: 2005-11-17 20:02
文章分类

全部博文(15)

文章存档

2008年(15)

我的朋友

分类:

2008-04-28 13:57:27

今天同事拿来一个数据集问我,这个数据集包含有Account Number字段,type字段以及其他一些字段,这些字段的数据形式如下所示:
Acct Num    Type    Ind    Other
6011000000004863    MS    1    .
6011000000059368    AF    1    .
... ...
在SAS Viewer中按Acct Num排序查看,Acct Num最小值的observation只有1条,但同事欲对该数据集按Acct Num和Type进行分类统计。
proc summary data=test nway missing;
class acctnum type;
var ind
output out=srt mean=;
run;
统计的结果和观察到的结果有很大出入,结果显示Acct Num最小值和Type值是LA的组合竟有4400+记录。这个问题甚是奇怪,核对了多次代码,没有发现有什么错误。最后同事的一句话提醒了我,是不是数据格式的问题呢?于是在SAS Viewer中重新察看数据集的各个变量的数据格式,发现Acct Num的数据格式竟然是Best12.,尽管显示的时候我们看到的是16位的数据,可实际参与运算的数据却只有前12位,而前12位是601100000000的数据就不只1条了。于是将Acct Num的数据格式修改了一下,其后的统计结果就正常了。可见在具体分析前做好数据的clean和QC是多么的重要。
阅读(1203) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~