使用UIMA和DB2数据库进行的文本挖掘（1）-sdccf-ChinaUnix博客

Fosdccf.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sdccf

博客访问： 106258976
博文数量： 19283
博客积分： 9968
博客等级：上将
技术积分： 196062
用户组：普通用户
注册时间： 2007-02-07 14:28

文章分类

全部博文（19283）

香文化（0）
CU技术专题（2443）

Linux酷软（214）

tmp（0）

PostgreSQL（93）

Solaris（383）

AIX（173）

SCOUNIX（575）

DB2（1005）
涂鸦（9）
编程开发（1573）

Shell（386）

C/C++（1187）
数据库（6458）

MySQL（1750）

Sybase（465）

Oracle（3695）

Informix（548）
操作系统（8627）

HP-UX（0）

IBM AIX（2）

Sun Solaris（0）

BSD（1）

Linux（8597）

SCO UNIX（23）
未分配的博文（173）

文章存档

2011年（1）

2009年（125）

2008年（19094）

2007年（63）

我的朋友

最近访客

推荐博文

使用UIMA和DB2数据库进行的文本挖掘（1）

分类：

2008-04-12 09:56:14

来源：IBM developerWorks 中国网站作者：知识管理技术主管

　　简介

　　人们越来越希望使用信息技术从组织中的非结构化信息中获得更大的价值。IBM 最近引入了新的 Unstructured Information Management Architecture（UIMA）框架（参见参考资料），这个框架简化了分析非结构化媒体对象（比如文档）的系统的开发和部署，可以用来提供语义搜索和文本挖掘等功能。文本挖掘就是用于从文本中提取信息的数据挖掘技术。接下来，详细描述一个非常简单的文本挖掘应用程序。

　　概述

　　本文中描述的文本挖掘应用程序称为 Preston，它对文档进行分析，寻找提到的人名，并使用文本挖掘寻找常常同时提到的人。尽管这种技术只是众多有用的文本挖掘技术之一，但是它演示了这类应用程序的主要特性，并为介绍 UIMA 的使用提供了一个具体示例。它还演示了如何组合结构化数据库和文本挖掘。本文面对的读者是希望了解如何使用新的 UIMA 技术将非结构化和结构化信息联系在一起的人。

　　图 1 给出了 Preston 的概况。这个程序对存储为 DB2 数据库表中的文本字段的文档进行分析。UIMA 框架中的组件从数据库读取并分析文档，寻找以某种格式提到的名称，然后将结果写到另一个数据库 Extracted Information Database（EIDB）中。这些组件是使用 UIMA SDK 中的工具开发和部署的，UIMA SDK 可以从 developerWorks 获得（参见参考资料）。对 EIDB 中的信息要进行分析后处理，以便准备进行文本挖掘，这是使用 DB2 Intelligent Miner 完成的。整个应用程序可以很容易地在笔记本计算机上运行。

图 1. 本文中描述的 Preston 文本挖掘应用程序的概况

阅读(435) | 评论(0) | 转发(0) |

上一篇：备份和恢复DB2 Universal Database （4）

下一篇：使用UIMA和DB2数据库进行的文本挖掘（2）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6