机器学习预测2018年世界杯冠军队-浅色年华-ChinaUnix博客

浅色年华的ChinaUnix博客

首页　| 　博文目录　| 　关于我

浅色年华

博客访问： 406146
博文数量： 273
博客积分： 0
博客等级：民兵
技术积分： 1430
用户组：普通用户
注册时间： 2018-02-02 15:57

文章分类

全部博文（273）

未分配的博文（273）

文章存档

2018年（273）

我的朋友

相关博文

机器学习预测2018年世界杯冠军队

分类：大数据

2018-06-20 15:41:31

麻省理工学院报道，他们开发了一种新型人工智能，用以预测世界杯走势。而应用了一种名为random-forest的计算方法，通过结合机器自我学习和常规统计，其准确率可能远胜于传统的统计方法。

在众多资深评论员的预测中，巴西拥有16.6%的最高夺冠几率，德国和西班牙紧随其后，夺冠概率分别有12.8%和12.5%。但random-forest认为，西班牙拥有更高的夺冠几率，其捧杯概率为17.8%，高于德国。这其中主要是因德国在16强中失利的可能性相对较大。在麻省理工的相关报告中，他们表示：

“西班牙比德国稍受AI青睐，这主要是因为德国在16强被爆冷的可能更高。”

近年来random-forest已经成为一种分析大型数据集的可靠方法，其在运行分析的同时规避了其他数据挖掘系统的一些缺陷。Random-forest的主要运算逻辑基于未来事件可以由决策树来决定这一原则，而决策树通过分析每一组数据集来得出其相应分支的结果。

在麻省理工的报告中称，影响西班牙和德国未来走向的重要因素是赛事本身的结构。他们指出，如果德国在小组阶段出线，其在16强淘汰赛面临的挑战将远大于西班牙，“翻车”的可能性不小。基于此点，random-forest通过计算，认为德国进入1/4决赛的概率只有58%；相比之下，西班牙则有73%的机率进入八强。

当然，假如西班牙和德国都成功进入1/4决赛，那么他们将有平等的机会最终捧杯。

random-forest中文翻译为随机森林，随机森林离不开决策树，下面我们就聊聊决策树和random-forest是如何计算的。

决策树模型虽然简单明了，但单独使用时效果并不理想。决策树和逻辑回归配合使用,将两种模型联结成为一个整体后，模型的效果得到了明显的提升。但由于其中涉及两种完全不同的模型，在数学上很难给这种联结方式一个比较理想的抽象，因此在工程实现上，很难做到自动寻找最优的模型组合。

为了使模型间的组合更加自动化，最常规或者最成熟的做法就是只使用一种模型，比如决策树。通过某种方式将多个决策树组合起来，使用它们的“集体智慧”来解决问题，学术上被称为集成方法（ensemble method）。

针对决策树的集成方法通常可以被分为两类：平均方法（averaging methods）和提升方法（boosting methods）。它们的代表模型分别是随机森林和GBTs。

1.1随机森林

随机森林（random forests）由n个决策树组成，模型的预测结果等于各决策树结果的某种“加权平均”，如图1所示。

9fd05b356eb77e6cb72305e6c71c0303aee8c252

图1

? 对于分类问题，最终结果等于在决策树预测结果中出现次数最多的类别。直观上，可以将每个决策树想象成一个人，而随机森林想象成一场投票，通过少数服从多数的原则得到最终的结果。

? 对于回归问题，最终结果等于决策树预测结果的平均值。

随机森林的建模依据是：一棵树犯错的概率比较大，但很多树同时犯错的概率就很小了。通过一个简单的例子，从数学上来证明一下这种做法的正确性。假设针对某个分类问题，有3棵相互独立的决策树，它们各自预测错误的概率为20%。如果将它们按少数服从多数的原则组合起来，形成一个随机森林，那么预测犯错的情况可分为如下两种：3棵决策树都错误或者只有一棵树预测正确。计算可得这个随机森林的犯错概率下降到10.4%。

〖0.2〗^3 + 3 × 〖0.2〗^2 × 0.8 = 10.4% （8-34）

由上面的例子可以看到，随机森林预测效果最重要的保证是森林中的决策树是相互独立的（极端地，假设森林中的每棵树都是一样的，则随机森林模型等同于决策树模型）。那么针对同一份训练数据，应该如何产生随机的决策树呢？

阅读(905) | 评论(0) | 转发(0) |

上一篇：前端程序员：月薪 5K 到 5 万，我干了啥

下一篇：游戏成瘾正式列入精神疾病，你怎么看？

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6