Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2119676
  • 博文数量: 249
  • 博客积分: 1305
  • 博客等级: 军士长
  • 技术积分: 4733
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-17 10:37
个人简介

不懂的东西还有很多,随着不断的学习,不懂的东西更多,无法消灭更多不懂的东西,那就不断的充实自己吧。 欢迎关注微信公众号:菜鸟的机器学习

文章分类

全部博文(249)

文章存档

2015年(1)

2014年(4)

2013年(208)

2012年(35)

2011年(1)

分类: C/C++

2013-04-19 08:47:50


    数据库内容丰富,蕴藏大量的信息,可以用来作出职能的商务决策。分类和预测是两种数据分析形式,可以用来提取描述重要数据类的模型和预测未来的数据趋势。
    数据分类(data classfication)是一个两步过程。
    第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label atrribute)的属性确定。对于分类,数组元组也称作样本、实例或对象。为模型建立而被分析的数据元组形成训练数据集合。训练数据集中的单个元组称为训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称为有指导/监督的学习(即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习,那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
    第二步,使用模型进行分类。首先评估模型的预测准确率。如果模型的准确率根据训练数据集评估,评估的结果可能是乐观的。因此,我们需要选择独立于训练集的测试样本集去评估模型的准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
    分类和预测具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物等。以下介绍一种数据分类的基本技术,决策树分类模型。

1. 什么是决策树
1.1 决策树的定义
    决策树(decision tree)是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树节点代表类或者类分布。树的最顶层节点是根节点。我们可以用下图表示一棵典型的决策树模型。以下这棵决策树用来预测顾客是否购买计算机。
    
    以上决策树示例可以得出几组规则,其中一组为:“Age <= 30”且"不是student",则可以推测出:该顾客不可能购买计算机。决策树很容易转换为分类规则。
1.2 决策树的特点
    决策树算法本身的特点使其适合进行属性数(特征数)较少情况下的高质量分类,因而适用于仅仅利用主题无关特征进行学习的关键资源定位任务。
    决策树算法的核心问题是选取在树的每个节点即要进行测试的属性,争取能够选择出最有助于分类实例的属性。为了解决这个问题,ID3算法引入了信息增益的概念,并使用信息增益的多少来决定决策树各层次上的不同节点,即用于分类的重要属性。
1.3 决策树的优缺点
    优点
    (1)可以生成可以理解的规则;
    (2)可以处理多种数据类型;
    (3)计算量相对来说不是很大;
    (4)决策树可以清晰的显示哪些字段较为重要;
    缺点
    (1)对连续性的字段比较难预测(C4.5改进了这个缺点)
    (2)有时间顺序的数据,要很多预处理工作;
    (3)当类别太多时,错误可能会增加的很快;


    针对”对连续性的字段比较难预测“的缺点,C4.5很好的解决了这个问题,并且对决策的剪枝有很好的改进。因此,针对属性维度较少的情况下用ID3的准确率好且效率高,所以具体要根据训练数据集的特点来选择算法。


    本文引自:http://www.taobaotest.com/blogs/qa?bid=3467
阅读(7667) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~