数据分析的一般流程-xktop-ChinaUnix博客

篆隶琴趣

首页　| 　博文目录　| 　关于我

xktop

博客访问： 359223
博文数量： 15
博客积分： 10020
博客等级：上将
技术积分： 630
用户组：普通用户
注册时间： 2005-11-17 20:02

文章分类

全部博文（15）

数据处理与挖掘（7）
Linux（1）
Bash（0）
未分配的博文（7）

文章存档

2008年（15）

我的朋友

xiaolucs

最近访客

推荐博文

数据分析的一般流程

分类：

2008-04-25 14:45:06

1. Data Collection:从客户处拿到待分析的原始数据，可能有各种格式。这个过程自己从来没有参与过，不知道这里面有多少技巧，还需要学习。
2. Original Data Convertion:将从客户处获取的数据转换为sas格式，如果原始数据很脏，这个过程会比较痛苦，一个trick就是:如果原始数据是CSV类型的话，不管三七二十一先在第一行数据之前添加一行全字母的CSV数据，这主要是根据sas import procedure只会用前5行数据进行数据格式判定的规则，从而将所有数据都按字符格式先读入sas，然后利用sas再继续pure数据，这里的pure主要指格式上的而不是分析或者逻辑上的，如果试图在plain text格式时就pure然后再import，不是不可能，而是当数据很大时，效率上不如用sas来pure。
3. Data Checking:查找pure后的数据是否在分布及business方面有不合理的地方，举个例子，如果数据都是时间相关的，那么察看数据observation在时间上的frequency就可以发现数据的分布是否合理，比如采样是否符合分析需求，是否存在数据断裂等等。
4. Data Imputation:如果数据经过check发现了不合理的地方，就需要向客户重新索要数据，反之就可以对数据进行分析和逻辑上的pure了，比如missing value和outlier数据的处理。
5. Data Sampling:将待分析的数据划分为in sample和out of sample两类，in sample用于建立模型，out of sample用于验证模型的效果，如果待建的模型对时间有很强的依赖，则还要建立out of time数据集，用于检验模型在时间上的效果延续性。
6. Data Profile:从不同方面对in sample数据进行统计和分析，找出对分析对象影响最大的因素和变量(也可以根据已有变量构建新的变量)；比如最简单的方法就是计算所有变量对分析对象的目标变量的相关系数，取相关性最大的前100个或者更多的变量进行建模。
7. Modeling:最简单的模型就是linear regression和logistic regression，以Profile之后的变量作为回归因子，用in sample数据集创建回归模型，将模型选中的变量的回归系数和这些变量对目标变量的相关系数作比较，如果一致(同正相关或同负相关)则计入模型，如果不一致则从回归的因变量列表中剔除这些变量，然后重新regression，重复上述过程，直到模型选中的前n个变量在若干regression中都稳定的被计入模型。至此linear regression或logistic模型就建立好了。
8. Model Validation:将模型应用到out of sample上，用以检验模型的好坏。可以用Lorenz Curve或者Grid Table来展现模型在in sample和out of sample之间的差别。
9. Model Application:如果模型表现良好，并且有应用的必要，就将模型应用到待应用的数据集上，否则重新建立模型(拓展新的分析思路)。
10. Documentation:用Excel将建模的背景，分析思路，建模过程以及分析结果和各种图表等细致的纪录下来。如果需要对客户进行演示，还需要创作幻灯。

阅读(1795) | 评论(0) | 转发(0) |

上一篇：Imputation: Outlier和Missing数据的处理

下一篇：数据的clean与QC相当重要

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6