使用UIMA和DB2数据库进行的文本挖掘（7）-sdccf-ChinaUnix博客

Fosdccf.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sdccf

博客访问： 106258910
博文数量： 19283
博客积分： 9968
博客等级：上将
技术积分： 196062
用户组：普通用户
注册时间： 2007-02-07 14:28

文章分类

全部博文（19283）

香文化（0）
CU技术专题（2443）

Linux酷软（214）

tmp（0）

PostgreSQL（93）

Solaris（383）

AIX（173）

SCOUNIX（575）

DB2（1005）
涂鸦（9）
编程开发（1573）

Shell（386）

C/C++（1187）
数据库（6458）

MySQL（1750）

Sybase（465）

Oracle（3695）

Informix（548）
操作系统（8627）

HP-UX（0）

IBM AIX（2）

Sun Solaris（0）

BSD（1）

Linux（8597）

SCO UNIX（23）
未分配的博文（173）

文章存档

2011年（1）

2009年（125）

2008年（19094）

2007年（63）

我的朋友

最近访客

推荐博文

使用UIMA和DB2数据库进行的文本挖掘（7）

分类：

2008-04-12 09:58:39

来源：IBM developerWorks 中国网站作者：知识管理技术主管

将 UIMA_RELATIONS 视图创建为两个 SQL 选择语句的联合。一个选择语句为 “Mentioned_in” 谓词创建行，另一个为 “Has_name” 谓词创建行。第一个选择语句将人和文档联系起来。它从 EIDB 中的 INSTANCES 表中取出人实例，并通过与其他表进行联结，寻找提到这个人实例的文档。证据 URI 是文档 URI。第二个 SQL 选择语句为 “Has_name” 谓词创建行，它将人实例与他们的名字字符串联系起来。因为这个谓词所需的所有信息都在 INSTANCES 表中，因此构造一个证据 URI 指向这个表中的相关行。

　　Preston 中的数据挖掘要寻找关联，它需要定义另一个视图 MINING_VIEW，这个视图的格式根据下面描述的 DB2 Intelligent Miner 工具的需求进行定义。它是通过对 UIMA_RELATIONS 视图进行自我联结建立的。挖掘视图只包含两列，见表 2。第一个列是人可读的实体标识符，在这个例子中是人名。第二个列是出现此人的 “事务” 的惟一 ID。在这个例子中是提到此人的文档的 URI。

*表 2. MINING_VIEW 视图的模式。两个列的类型都是 VARCHAR。*
列名	说明
name	一个描述实体的字符串，例如一个人实例的名字。
transaction_id	出现此实体的事务的惟一标识符，例如文档的 URI。

　　如果我们考虑到关联挖掘最初的动机 —— Market Basket Analysis，那么事务 ID 的重要性就很明显了。如果把购物篮（Market Basket，例如超级市场中的购物车）看作 “事务”，把它的标识符看作事务 ID，那么关联挖掘就可以用来寻找购物车中两个或多个商品之间的关联。在 Preston 中，文档相当于购物车，文档中提到的人相当于购物车中的商品。如果还有其他关系，尤其是采用 “人-关系-人” 形式的二元关系，那么关系实例相当于购物车，关系中的主体和对象是购物车中的商品，事务标识符是关系实例的标识符。

　　关联挖掘的输出是一组采用以下形式的规则

　　entity1, entity2 => entity 3

　　这表示，在一个事务中如果同时存在 entity1 和 entity2，那么 entity3 可能以一定的概率存在。这个例子是一个长度为 3 的规则。在 Preston 中，我们寻找的规则只是将两个人联系起来，比如：

　　personA => personB,

　　这种规则的长度是 2。这个规则的强度表示 personA 和 personB 在同一个文档中一起出现的可能性。强度的几种度量由关联的挖掘算法进行计算。

阅读(430) | 评论(0) | 转发(0) |

上一篇：使用UIMA和DB2数据库进行的文本挖掘（6）

下一篇：使用UIMA和DB2数据库进行的文本挖掘（8）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6