关于数据建模变量标准化，你想知道的都在这里了-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4662005
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

01 我们来举个回归的例子

我们先从简单的预测房价的线性回归模型开始：
有一组关于房价和房子变量的数据集，通过房子的面积，房间数量，房子的层数来预测房价。

占地面积1800尺，房间数量3间，房子层数2层-> 房价$$?；
为了方便对比，我们分别看一下标准化前和标准化后的模型输出分布是怎么样的。

可以看出，标准化前后变量的系数不同，误差不同，但是R平方，和变量的t值是相同的。

001 解释有区别吗？

那标准化前后得到的公式，怎么来解释呢？

标准化前	标准化后
如果居住面积，房间数，房间层数都是0的情况下，房子的价格为91830万	如果居住面积，房间数，房间层数是各自的平均数的情况下，房子的价格为539400万

当一个外行人在听解释的时候，一定会问，什么呀？所有东西都是0，空气造的房子还能卖9万？！
接着你会问，系数不同，那预测出来的房价会相同吗？

002 预测值有区别吗？

现在我们来预测一个1590尺，3个卧室，3层的房屋

标准化前房价	标准化后房价
$406641.02	$406641.02

我们发现预测出来的房价是一样的。
这时你一定会想，既然结果都一样，做不做标准化，都一样嘛。说到这里，我们再看一下，建模时寻找最优解的时间吧。

003 花费时间有区别吗？

标准化前处理时间	标准化后处理时间
0.026s	0.021s

为什么标准化后的建模时间会短呢？这时候就要说起寻找系数最优解－梯度下降法。

标准化前，由于变量的单位相差很大，导致了椭圆型的梯度轮廓。标准化后，把变量变成统一单位，产生了圆形轮廓。由于梯度下降是按切线方向下降，所以导致了系统在椭圆轮廓不停迂回地寻找最优解，而圆形轮廓就能轻松找到了。

还有一种比较极端的情况，有时没做标准化，模型始终找不到最优解，一直不收敛。

02 PCA，Kmeans，KNN需要标准化数据吗？

这种情况下，可见标准化的重要性了吧。
我们再来看一下，如果将预测房价的变量，用PCA方法来降维，会不会对结果产生影响。

我们看出在标准化前，用一个成分就能解释99%的变量变化，而标准化后一个成分解释了75%的变化。主要原因就是在没有标准化的情况下，我们给了居住面积过大权重，造成了这个结果。

那还有什么情况下，不做归一化会发生这么大的影响？

Kmeans，KNN一些涉及到距离有关的算法，或者聚类的话，都是需要先做变量标准化的。

举个例子，我们将3个城市分成两类，变量有面积和教育程度占比；三个城市分别是这样的：

城市A，面积挺大，但是整天发生偷盗抢劫，教育程度低；

城市B，面积也挺大，治安不错，教育程度高；

城市C，面积中等，治安也挺好，教育程度也挺高；

我们如果不做标准化，直接做聚类模型的话，A城市和B城市分在一块儿了，你想想，一个治安挺好的城市和一个整体偷盗抢劫城市分在一起，实在是有点违反常理。

03 总结

当然，也不是所有的模型都需要做归一的，比如模型算法里面有没关于对距离的衡量，没有关于对变量间标准差的衡量。比如decision tree 决策树，他采用算法里面没有涉及到任何和距离等有关的，所以在做决策树模型时，通常是不需要将变量做标准化的。

作者：Yan文怡
链接：
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

阅读(1107) | 评论(0) | 转发(0) |

上一篇：你被广告盯住了吗？广告的渠道和频度

下一篇：MXNET新前端GLUON模型转换到SYMBOL

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6