Chinaunix首页 | 论坛 | 博客
  • 博客访问: 89613
  • 博文数量: 29
  • 博客积分: 1410
  • 博客等级: 上尉
  • 技术积分: 225
  • 用 户 组: 普通用户
  • 注册时间: 2006-03-20 00:00
个人简介

一杯茶,品人生沉浮;平常心,遍万千世界。 农夫,山泉,有点田儿。

文章存档

2013年(1)

2010年(3)

2009年(1)

2007年(2)

2006年(22)

我的朋友

分类: 数据库开发技术

2006-04-28 11:45:37

高效实施数据挖掘的另一条件 —— 优秀的数据挖掘工具
有了优秀方法论的指导,还需要一个高效的数据挖掘工具。目前提供数据挖掘产品的厂商非常多,如著名的产品有SAS Enterprise Miner、SPSS Clementine 8.1(简体中文版)、IBM DB2 Intelligent Mine等,这些产品各有特色。
选择一款适合的数据挖掘工具,主要从以下几方面来考虑。下面我们根据CRISP-DM方法论,从数据挖掘项目的各个阶段来考虑数据挖掘工具。
        第一阶段:商业理解
本阶段的任务主要是从业务角度来理解数据挖掘项目的目标和要求,然后将此转化为数据挖掘问题,并制定一个可行的数据挖掘计划。选择数据挖掘工具时,需要考虑以下两个问题:
(1)是否有在其他相关企业成功实施的经验;可用该工具解决的各类商业问题是否包括我们面临的商业问题?
在解决我们行业内的商业问题时,该工具(单独或与我们的应用程序一起)是否有用?是否有该领域的成功案例?
(2)该工具是否在商业问题和数据挖掘技术之间提供了一个桥梁,是如何提供的?
使用该工具中,各操作步骤是否可以被清晰地映射到数据挖掘的商业需求上?该工具是否向商业用户清晰地表述了数据挖掘概念?该工具如何与项目管理或其它计划工具所整合?是否需要编写额外地应用程序来实现数据挖掘技术与商业理解之间的沟通?
        第二阶段:数据理解
数据理解阶段包括收集数据和对数据进行探索性分析两个部分。在该阶段中,可以获取不同类型的数据和可视化技术是要着重考虑的。
(1)该工具如何保护我的现有资产的利用?
该工具是否可与现存的数据库兼容?该工具是否支持通用的数据接口标准?是否要求数据转换成另一种格式才能使用(如果需要,我们需要什么样的投资)?
(2)该工具是否可以对数据进行交互式探索分析并用丰富的图形展示数据?
数据挖掘工具是否提供了可视化技术,以便于发现数据中存在的模式?图形是否可以与用户交互,例如随着数据维度的改变,图形是否可以发生改变或者生成新的图形?
        第三阶段:数据准备
数据准备阶段的任务包括了从最初获取的数据一直到构建生成可用于分析的最终数据。此阶段要着重考虑数据准备工作的高效性和易用性。
(1)该工具如何准备数据?
该工具在数据准备的所有工作(包括为建模所作的准备或为提高数据挖掘效率所作的准备)是否是交互性的?该工具在进行数据准备工具时,是否以一种易于跟踪的方式?
(2)在数据准备中,该工具是否可自动提取数据?
在提取数据时,是自动完成的,还是需要手工写SQL查询语句,进行数据的合并、汇总、排序和其它数据准备工作?
        第四阶段:建立模型
在该阶段,需要选择和应用各种建模技术,设置模型参数。用户往往需要返回到数据准备阶段以使数据适应不同模型的不同要求。由于同一数据挖掘问题可以应用不通模型,故要考虑数据挖掘工具在应用和比较不同分析技术的能力。
(1)该工具是否提高了分析师的工作效率?
该工具是否使分析师能快速生成有效模型?用户比较不同模型以找出最佳解决方案时,该软件的易用性有多好?为适应不同模型要求而进行数据准备工作时,该软件的易用性有多好?
(2)该工具是否提供了足够多的数据挖掘技术?
该工具是否提供了神经网络、关联算法、聚类分析、分类分析、回归分析、图形化的展现等数据挖掘技术?
(3)该工具是否可组合使用不同技术?
不同技术是否可易于组合而生成更佳结果?模型结果是否可整合入数据集以便后续分析?
(4)该工具是否可与现有技术资源(如算法和其它工具)兼容?
该数据挖掘工具是否能与现有的算法工具兼容使用?该数据挖掘工具是否可与其它数据分析工具兼容使用?
        第五阶段:模型评估
评估阶段要对模型进行多方面的评估。主要目的是确定重要的商业因素是否被充分考虑?下面列出了有关的重点:商业用户的输入如何被整合跑过模型,结果又如何被传给受众。
(1)该工具的结果是否可以适用于各种情况?
该工具产生的解决方案,是否对所有数据挖掘问题的解决方案都是有效的,还是只对某个数据挖掘问题的解决方案是有用的?结果是否准确地反映了所有的商业问题,是否在检验数据集上进行验证结果也足够好?
(2)该工具产生的结果是否容易理解?
产生的结果是否易为商业用户所理解?如果不能,需要采取什么步骤以使结果便于读懂?该工具是否要求商业专家参与整个数据挖掘过程?
        第六阶段:结果发布
数据挖掘过程可能很简单,如只是对商业问题给出一个建议,也可能很复杂,如应用一个应用程序向信息客户提供新知识。无论简单还是复杂,在结果发布阶段,都要用到该过程。结果发布经常要求扩展性的服务,所以下面的问题主要是基于数据挖掘工具在此任务上的帮助能力。
(1)如何发布数据挖掘解决方案(现在和未来)?
数据挖掘解决方案如何才能被整合到操作性的应用程序中?整合的投资回报率是否高?是否需要在时间和财力上对结果发布做额外的投资?解决方案的更新是否容易?如果不容易,需要做些什么工作,投入多少财力和时间?
要想成功地开展一个数据挖掘项目,除了上述的高质量数据、高素质的人员、优秀的软硬件资源之外,企业还要有比较明确的挖掘目标。盲目的数据挖掘是很难成功的。最后,还需要很高的资金投入,而且挖掘结果是供决策层决策使用的,因此必须得到最高决策管理层的支持、认可和参与。
阅读(1331) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~