Chinaunix首页 | 论坛 | 博客
  • 博客访问: 494771
  • 博文数量: 96
  • 博客积分: 6046
  • 博客等级: 准将
  • 技术积分: 908
  • 用 户 组: 普通用户
  • 注册时间: 2006-03-07 22:40
文章分类

全部博文(96)

文章存档

2009年(12)

2008年(18)

2007年(45)

2006年(21)

我的朋友

分类: 数据库开发技术

2006-07-06 19:57:50

选择正确的挖掘工具

选择数据挖掘技术的两个步骤:

1)        将商业问题转化成一系列数据挖掘的任务。

2)        理解可以获得的数据的信息:内容、字段类型、记录之间的关系。

将商业问题转化数据挖掘的任务

       主要是六种任务:分类,估值,预测,篮子分析,聚集,描述。

       一个例子:分析客户流失的原因。任务就是分类,但是可以采用的技术有很多:MBRGA,连接分析,决策树,神经元网络。从中选择了决策树,是因为分完类之后,我们需要知道每个类的流失的原因。

技术

分类

估值

预测

篮子分析

聚集

描述

统计技术

关联规则

   

MBR

 

GA

 

     

聚集检测

       

 

连接分析

 

   

决策树

 

 

神经元网络

 

 

对可以挖掘的数据进行分析:

可能影响技术选择的一些数据性质

1)是种类字段占优势

2)是数值字段占优势

3)每个记录都有大量的字段(独立)

4)多个目标字段(非独立)

5)记录是变长的

6)有时间顺序的数据

7)自由文本数据

种类字段:

       关联分析和连接分析只适用于种类字段。

       决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较的差,当然如果限制分支的个数的时候,决策树的效果还是不错的。

       神经元网络:可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。

数值字段:

       神经元网络将所有输入转化到0—1之间。

       MBR和聚集检测通过距离函数来处理数值字段。

决策树可以通过splitter数值来处理。

       对于关联分析,必须将数值变量区间化成种类变量。但是区间的选择是一个很困难的问题。

记录中的字段很多:

       神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。

       而决策树受其影响的程度就比较的小。

多个依赖变量:

       神经元网络是最佳的选择。

变长记录:

       只有关联规则和连接分析可以直接处理。

       对于其他的技术,数据需要一些处理。可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。

有时间顺序的数据:

       神经元网络,关联规则对时间顺序的数据的处理能力比较的好。

       决策树也能处理时间顺序,但是需要的数据准备就相对的比较的多一点。

自由文本:

       MBR

数据挖掘技术卡:

 

模型易理解性

模型易训练性

模型易实施性

通用性

有用性

产品可获得程度

统计

B

B

B

B

B

B

关联规则

A

A

A+

D

B

B

MBR

A-

B

B

A-

A-

C

GA

B-

C-

A-

B+

C

C

聚集检测

B+

B+

A-

A-

B-

B

连接分析

A-

C

B

D

B

C+

决策树

A+

B+

A+

A

A

B+

神经元网络

C-

B-

A-

A

A

A

几种方法的混合使用:

如何选择数据挖掘软件包:

1)    卖主提供有哪些数据挖掘技术

2)    在数据大小,用户数,字段数,硬件方面的伸缩能力

3)    有哪些硬件、软件平台的产品是现在就有的?

4)    是否提供对数据库和文件的透明访问?

5)    是否能有效的利用您的网络能力?

6)    是否提供多层的用户界面?

7)    是否对生成的结果有一个很好的解释?

8)    是否支持是图形化、可视化的,有没有报表工具?

9)    是否能处理不同的数据类型?

10) 是否容易使用?

11) 产品支持和顾问的方便程度?

12) 是否容易整合在一起?

13) 卖主的信用度如何?

阅读(844) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~