一、背景
故事:
某男到医院就诊,医生亲切地问了一些该男的症状,最后得出结论:“医生说我怀孕了。。。”
血淋淋的故事告诉我们:
需要一个好的诊断器:根据病人的一系列症状,得出病人患的是什么病。
实际上,这是一个分类问题。
分类问题很常见:
1) 博客男女
2) OCR
3) 情感分类
4) 查询意图识别
5) 排序学习
6) 等等
文本分类算法:
1) Nave Bayes
2) Decision Tree
3) KNN
4) ANN
5) SVM
6) ME
7) ...
然而,事实是残酷的。直接寻找一个强分类器很困难。
弱 + … + 弱 ≈ 强
- 古语有云:三个臭皮匠,顶个诸葛亮。
- Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule.
启发:
整合多个弱分类器,成为一个强大的分类器。这时候,集合分类器(Boosting, Bagging等)出现了。
阅读(2042) | 评论(0) | 转发(0) |