数据挖掘之决策树分类模型-梦醒潇湘love-ChinaUnix博客

梦醒潇湘loveloveyou1314.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

梦醒潇湘love

博客访问： 2135610
博文数量： 249
博客积分： 1305
博客等级：军士长
技术积分： 4733
用户组：普通用户
注册时间： 2011-12-17 10:37

个人简介

不懂的东西还有很多，随着不断的学习，不懂的东西更多，无法消灭更多不懂的东西，那就不断的充实自己吧。欢迎关注微信公众号：菜鸟的机器学习

文章分类

全部博文（249）

机器学习（1）
Hadoop（2）
互联网广告（0）

特征工程（0）
算法（2）

SearchForPattern（2）
TCP/IP（1）
笔试题（4）

腾讯（2）
STL学习（3）
Big Data&nb（1）
程序员自我修养（4）
编程珠玑（5）
面试编程题（132）

Google（0）

智力题（2）

C/C++（11）

数学相关（7）

二分查找（7）

数组（30）

栈、队列、堆（4）

单链表（20）

经典二叉树（26）

字符串（20）
数据挖掘（6）
杂谈（1）
信息检索（1）
Linux编程（14）
Load Balance学习（4）
C/C++学习（19）

字节对齐（0）
linux下多线程（3）
数据结构与算法（29）

递归与分治（2）

并查集（1）

数据结构（1）

算法（3）
Makefile（8）
Mongoose(web服务（4）
BitTorrent（2）
未分配的博文（3）

文章存档

2015年（1）

2014年（4）

2013年（208）

2012年（35）

2011年（1）

我的朋友

相关博文

数据挖掘之决策树分类模型

分类： C/C++

2013-04-19 08:47:50

数据库内容丰富，蕴藏大量的信息，可以用来作出职能的商务决策。分类和预测是两种数据分析形式，可以用来提取描述重要数据类的模型和预测未来的数据趋势。
数据分类（data classfication）是一个两步过程。
第一步，建立一个模型，描述预定的数据类集或概念集。通过分析由属性描述的数据元组来构造模型。假定每个元组属于一个预定义的类，由一个称作类标号属性（class label atrribute）的属性确定。对于分类，数组元组也称作样本、实例或对象。为模型建立而被分析的数据元组形成训练数据集合。训练数据集中的单个元组称为训练样本，并随机地由样本群选取。由于提供了每个训练样本的类标号，该步也称为有指导/监督的学习（即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行）。它不同于无指导的学习，那里每个训练样本的类标号是未知的，要学习的类集合或数量也可能事先不知道。
第二步，使用模型进行分类。首先评估模型的预测准确率。如果模型的准确率根据训练数据集评估，评估的结果可能是乐观的。因此，我们需要选择独立于训练集的测试样本集去评估模型的准确率。如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。
分类和预测具有广泛的应用，包括信誉证实、医疗诊断、性能预测和选择购物等。以下介绍一种数据分类的基本技术，决策树分类模型。

1. 什么是决策树
1.1 决策树的定义
决策树（decision tree）是一个类似于流程图的树结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树节点代表类或者类分布。树的最顶层节点是根节点。我们可以用下图表示一棵典型的决策树模型。以下这棵决策树用来预测顾客是否购买计算机。

以上决策树示例可以得出几组规则，其中一组为：“Age <= 30”且"不是student"，则可以推测出：该顾客不可能购买计算机。决策树很容易转换为分类规则。
1.2 决策树的特点
决策树算法本身的特点使其适合进行属性数（特征数）较少情况下的高质量分类，因而适用于仅仅利用主题无关特征进行学习的关键资源定位任务。
决策树算法的核心问题是选取在树的每个节点即要进行测试的属性，争取能够选择出最有助于分类实例的属性。为了解决这个问题，ID3算法引入了信息增益的概念，并使用信息增益的多少来决定决策树各层次上的不同节点，即用于分类的重要属性。
1.3 决策树的优缺点
优点：
（1）可以生成可以理解的规则；
（2）可以处理多种数据类型；
（3）计算量相对来说不是很大；
（4）决策树可以清晰的显示哪些字段较为重要；
缺点：
（1）对连续性的字段比较难预测（C4.5改进了这个缺点）
（2）有时间顺序的数据，要很多预处理工作；
（3）当类别太多时，错误可能会增加的很快；

针对”对连续性的字段比较难预测“的缺点，C4.5很好的解决了这个问题，并且对决策的剪枝有很好的改进。因此，针对属性维度较少的情况下用ID3的准确率好且效率高，所以具体要根据训练数据集的特点来选择算法。

本文引自：http://www.taobaotest.com/blogs/qa?bid=3467

阅读(7757) | 评论(0) | 转发(0) |

上一篇：【转】数组X和数据Y的中位数

下一篇：字符串是否包含问题（一）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6