读完这篇，连小学生都看的懂什么是机器学习里的boosting-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4635805
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

读完这篇，连小学生都看的懂什么是机器学习里的boosting

分类： IT业界

2019-04-05 22:24:09

近几年，机器学习竞赛网站Kaggle，很多获得第一名的选手用的模型算法都是xgboost。

那么xgboost到底是一个怎么样的算法，boosting又是一个什么样的算法概念？wikipedia 一看，简直要晕倒了呀，那么多复杂的公式，完全不知道从哪里入手。

有这个：

还有这个：

密密麻麻的公式，简直觉得要回大学把绿色的高数书拿出来再好好研究一下。今天我们不讲公式，只用简单明了的例子，小学生就能看懂的公式，来还原boosting的原理。

（以下例子用adaboosting）

首先用拟人化简单介绍一下adaboosting，把adaboosting想象为一个大家庭，大家庭里有爷爷，爸爸，奶奶，妈妈，儿子。现在出一张卷子给他们做，每人答完这张卷子，老师批完试卷，传给下一个做。爷爷做完卷子，错误率有30%。接着，爷爷传给爸爸做卷子，爷爷告诉爸爸，我这几题答错了，你答的时候要特别注意点，最好多读几遍，爸爸于是听从爷爷的叮嘱，也做了这张卷子，错误率20%，接着爸爸把同样的卷子给奶奶做，告诉了奶奶哪些题目要注意，奶奶错误率是60%，接着奶奶用同样的方法传给妈妈，妈妈传给儿子。

当所有人做完题目，家庭里的每个成员按照错误率有了一个排名，我们知道谁答对的多，谁答错的多。现在呢，又有了一张卷子，又需要答题。本来这个大家庭想推荐爸爸答题的，因为爸爸的正确率最高嘛，但是他们发现，一些爸爸答错的题目，排名最低的儿子却确答对了。比如说这道题目：

下面这个卡通人物是巴斯光年吗？

(爸爸居然说错，爸爸说这个应该是变形金刚 ????????????????????)

这个大家庭商量了下，觉得派一个人的风险有点大，万一之后题目都是这种类型的话，只派爸爸的话，那错误率岂不是要飙升，不如他们每人做一遍试卷，按照之前答题错误率高低，投票综合出个结果吧。比如爸爸错误率低，他的答案的占的比重就大一点，儿子错误率高，他的权重就小一点，但是也不能完全不考虑儿子的答案。

上面的例子，用2句话概括就是：

每个模型(人)按照错误率都有一个权重

模型(人)答错的地方，下一个模型(人)需要重点考虑，加重答错地方的权重，减小答对地方的权重

了解了概念后，我们用实际的数据一步一步演示下：

比如我们给出的一套卷子是猜性别，我们标注 -1是男的, 1是女的；
首先我们先偷看下正确答案：

题目	正确答案
1	-1
2	1
3	1
4	1

????????儿子第一个做这4道题：

题目	正确答案	儿子答案	结果	每题权重
1	-1	1	错	0.25
2	1	-1	错	0.25
3	1	1	对	0.25
4	1	-1	错	0.25

儿子4道里面错3道，错误率是75%，

有了错误率后，我们可以算出儿子在最后投票的权重
(1/2)*Log((1-0.75)/0.75) ＝ -0.55
这里代入公式就能算出儿子权重是-0.55，上面这个包含Log的公式主要作用是错误率超过一半我给一个负的权重，错误率低于一半，权重就给个正的。
表格里每道题0.25的权重是因为，儿子第一个答题，所以每道题同样对待 ? = 0.25。
前面说了，儿子做错的题，第2个做卷子的人要注意的，所以我们需要更新每道题的权重，

题目	正确答案	儿子答案	结果	儿子做之前题目权重	儿子做完后题目的权重
1	-1	1	错	0.25	0.433
2	1	-1	错	0.25	0.433
3	1	1	对	0.25	0.144
4	1	-1	错	0.25	0.433

更新每到题的权重我们用下面的公式：

题目答错了：原来题目权重 * e^(-1 * 这个人权重)
题目答对了：原来题目权重 * e^(+1* 这个人权重)

这个公式主要作用是，增大答错题目的权重，减小答对题目的权重，也就是说，喂喂喂，这道题目我错了哦，你下次要多注意点。
这样的话:
第一道儿子答错的题，新的权重是0.433 = 0.25*e^(-1*(-0.55))
第三道儿子答对的题，新的权重是0.144 = 0.25*e^(+1*(-0.55))

我们看到答错的题从原来的0.25上升到了0.433，而答对的题，从0.25下降倒了0.144。如果一道题很简单，每个人都能答对的话，那这个数会无限小，反过来，大家都答错的题目会越来越大，为了避免这种情况，我们最后把卷子交给下个人时候，我们再需要标准化每题的权重:

题目	儿子做完后题目权重	儿子交给下一个人题目的权重
1	0.43	0.3
2	0.43	0.3
3	0.14	0.1
4	0.43	0.3

让这些题目权重相加等于1 (第一题 0.3 = 0.43/(0.43+0.43+0.14+0.43)）

接下来，儿子把卷子交给爷爷????????做，

题目	正确答案	爷爷答案	结果	儿子交给爷爷做题权重
1	-1	-1	对	0.3
2	1	-1	错	0.3
3	1	1	对	0.1
4	1	-1	错	0.3

爷爷答对2题，答错2题，原本错误率是50%的，但是因为每到题目的权重发生了变化，比如同样两道题，一道很容易，一道很难，如果同样对待一刀切的方法，肯定不公平，考虑了每道题的权重，我们重新算出错误率是 0.6 (0.6 ＝（0.3+0.3)/1) ，就是答错题权重总和除以所有题目权重。
用上面同样的公式我们得出爷爷的权重是 -0.2 (1/2)*LN((1-0.6)/0.6) ＝ -0.2。
接下来根据爷爷答对答错的题目，重新计算题目权重

题目	正确答案	爷爷答案	结果	儿子交给爷爷题目权重	爷爷做完后题目权重
1	-1	1	对	0.30	0.24
2	1	-1	错	0.30	0.37
3	1	1	对	0.10	0.08
4	1	-1	错	0.30	0.37

同样的，爷爷在交给下个人做的时候，要重新标准化权重:

题目	爷爷做完后题目权重	爷爷交给下一个人题目的权重
1	0.24	0.23
2	0.37	0.35
3	0.08	0.08
4	0.37	0.35

接下来轮到爸爸????????做题目：

题目	正确答案	爸爸答案	结果	爷爷交给爸爸做题权重
1	-1	-1	对	0.23
2	1	1	对	0.35
3	1	-1	错	0.08
4	1	-1	对	0.35

爸爸错了一道题，错误率是 0.08/1＝0.077，爸爸权重是1.24，爸爸根据做对做错的情况，重新更新的题目的权重：

题目	正确答案	爸爸答案	结果	爸爸做之前题目权重	爸爸做完后题目的权重
1	-1	-1	对	0.23	0.07
2	1	1	对	0.35	0.10
3	1	-1	错	0.08	0.27
4	1	1	对	0.35	0.10

爸爸在交给下个人时候需要重新排一下题目权重:

题目	爸爸做完后题目权重	爸爸交给下一个人题目的权重
1	0.07	0.13
2	0.10	0.19
3	0.27	0.50
4	0.10	0.19

因为例子关系，我们就举3个人做卷子为例子。
我们有了下面的权重：儿子 -0.55，爷爷 -0.20，爸爸 1.24。
我们出一道新的题目给他们3个人做，按照之前说的，他们投票综合结果做为大家庭的最后答案：

做题人	权重	答案
儿子	-0.55	-1
爷爷	-0.20	-1
爸爸	1.24	1

加权平均： -0.55 * (-1) + -0.2 * (-1) + 1.24 * (1) = 1.99。因为1.99 > 0，符号为正，所以最后答案是女。

是不是其实没有想想的那么复杂，好，让我们再回过头看看之前贴的公式:

计算爷爷爸爸儿子错误率的公式
(1/2)*LN((1-0.75)/0.75) ＝ -0.55 ，
有没有觉得和文章开头第一个公式很像：

而这句话：
题目答错了：原来题目权重 * e^(-1*这个人权重)
题目答对了：原来题目权重 * e^(+1*这个人权重)
是不是和第二个公式很像：

小学生都看的懂的boosting，我是不是没有骗人。另外，千万不要以为boosting真的那么简单，如果要深入学习，还是要多研究哦。

作者：Yan文怡
链接：
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

阅读(942) | 评论(0) | 转发(0) |

上一篇：结合日常生活的例子，了解什么是卡方检验

下一篇：用可视化思维解读统计自由度

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6