Chinaunix首页 | 论坛 | 博客
  • 博客访问: 104965945
  • 博文数量: 19283
  • 博客积分: 9968
  • 博客等级: 上将
  • 技术积分: 196062
  • 用 户 组: 普通用户
  • 注册时间: 2007-02-07 14:28
文章分类

全部博文(19283)

文章存档

2011年(1)

2009年(125)

2008年(19094)

2007年(63)

分类:

2008-04-12 09:59:00

    来源:IBM developerWorks 中国网站    作者:知识管理技术主管

我们使用 DB2 Intelligent Miner 进行关联挖掘。安装了 DB2 之后,可以通过在 SQL 语句中调用存储过程来调用这个产品。清单 3 所示的调用使用了 Intelligent Miner 提供的一个 “简单挖掘过程”。在这个调用中,PRESTON 是创建的模型名,MINING_VIEW 是要挖掘的视图,下面两个数字参数为生成的规则的强度设置阈值,即最低支持度为 0.01%,最低可靠度是 1%。最后一个参数指定最大规则长度是 2。支持度可靠度 是关联规则强度的度量。支持度就是符合这一规则的事务的比例,可靠度度量包含 personA 的文档也提到 personB 的可能性。

  考虑共同提及的一种办法是定义一个网络或图,如果两个人在至少一个文档中被同时提到,那么在网络中就在他们之间建立链接。这个网络隐含在挖掘视图中。DB2 Intelligent Miner 的有用功能之一是能够在这个网络中寻找强连接的子图。这些子图中的人频繁地被同时提到。一个例子见 图 6,这是由 DB2 Intelligent Miner Visualization 绘制的。可以看到,通过对 IMDB 传记文档中的共同提及数据进行数据挖掘,找到了现实生活中一些著名的关联。这里采用不同的颜色表示关联的强度,橙色比白色强,白色比蓝色强。这个子图指出了披头士乐队和与他们高度相关的人。
  清单 3. 这个 SQL 语句调用 “简单挖掘过程” 来进行关联挖掘。BuildRuleModel 是 DB2 Intelligent Miner 提供的一个用户定义函数。

 CALL IDMMX.BuildRuleModel( 'PRESTON', 'MINING_VIEW',		'TRANSACTION_ID', 0.01, 1, 2)	

  图 6. DB2 Intelligent Miner 在文本分析找到的共同提及关系网络中发现的强连接子图。

  未来的方向

阅读(420) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~