分类: 数据库开发技术
2006-07-06 19:57:50
选择正确的挖掘工具选择数据挖掘技术的两个步骤: 1) 将商业问题转化成一系列数据挖掘的任务。 2) 理解可以获得的数据的信息:内容、字段类型、记录之间的关系。 将商业问题转化数据挖掘的任务 主要是六种任务:分类,估值,预测,篮子分析,聚集,描述。 一个例子:分析客户流失的原因。任务就是分类,但是可以采用的技术有很多:MBR,GA,连接分析,决策树,神经元网络。从中选择了决策树,是因为分完类之后,我们需要知道每个类的流失的原因。
对可以挖掘的数据进行分析: 可能影响技术选择的一些数据性质 1)是种类字段占优势 2)是数值字段占优势 3)每个记录都有大量的字段(独立) 4)多个目标字段(非独立) 5)记录是变长的 6)有时间顺序的数据 7)自由文本数据 种类字段: 关联分析和连接分析只适用于种类字段。 决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较的差,当然如果限制分支的个数的时候,决策树的效果还是不错的。 神经元网络:可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。 数值字段: 神经元网络将所有输入转化到0—1之间。 MBR和聚集检测通过距离函数来处理数值字段。 决策树可以通过splitter数值来处理。 对于关联分析,必须将数值变量区间化成种类变量。但是区间的选择是一个很困难的问题。 记录中的字段很多: 神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。 而决策树受其影响的程度就比较的小。 多个依赖变量: 神经元网络是最佳的选择。 变长记录: 只有关联规则和连接分析可以直接处理。 对于其他的技术,数据需要一些处理。可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。 有时间顺序的数据: 神经元网络,关联规则对时间顺序的数据的处理能力比较的好。 决策树也能处理时间顺序,但是需要的数据准备就相对的比较的多一点。 自由文本: MBR。 数据挖掘技术卡:
几种方法的混合使用: 如何选择数据挖掘软件包: 1) 卖主提供有哪些数据挖掘技术 2) 在数据大小,用户数,字段数,硬件方面的伸缩能力 3) 有哪些硬件、软件平台的产品是现在就有的? 4) 是否提供对数据库和文件的透明访问? 5) 是否能有效的利用您的网络能力? 6) 是否提供多层的用户界面? 7) 是否对生成的结果有一个很好的解释? 8) 是否支持是图形化、可视化的,有没有报表工具? 9) 是否能处理不同的数据类型? 10) 是否容易使用? 11) 产品支持和顾问的方便程度? 12) 是否容易整合在一起? 13) 卖主的信用度如何? |