使用UIMA和DB2数据库进行的文本挖掘（9）-sdccf-ChinaUnix博客

Fosdccf.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sdccf

博客访问： 106258947
博文数量： 19283
博客积分： 9968
博客等级：上将
技术积分： 196062
用户组：普通用户
注册时间： 2007-02-07 14:28

文章分类

全部博文（19283）

香文化（0）
CU技术专题（2443）

Linux酷软（214）

tmp（0）

PostgreSQL（93）

Solaris（383）

AIX（173）

SCOUNIX（575）

DB2（1005）
涂鸦（9）
编程开发（1573）

Shell（386）

C/C++（1187）
数据库（6458）

MySQL（1750）

Sybase（465）

Oracle（3695）

Informix（548）
操作系统（8627）

HP-UX（0）

IBM AIX（2）

Sun Solaris（0）

BSD（1）

Linux（8597）

SCO UNIX（23）
未分配的博文（173）

文章存档

2011年（1）

2009年（125）

2008年（19094）

2007年（63）

我的朋友

最近访客

推荐博文

使用UIMA和DB2数据库进行的文本挖掘（9）

分类：

2008-04-12 09:59:24

来源：IBM developerWorks 中国网站作者：知识管理技术主管

本文描述了一个简单的应用程序 Preston，它使用 UIMA 中的文本分析在文档中寻找提到的人名，用找到的数据建立一个数据库，并调用针对关联的数据挖掘来在共同提及关系网络中寻找强连接子图。尽管这个应用程序非常简单，但是它说明了使用 UIMA 在非结构化数据和结构化数据之间建立联系的主要特性。对这个应用程序可能进行的一种扩展是，通过进行更复杂的文本分析，识别更多类型的实体以及实体之间的关系。来自不同来源的标注器或文本分析引擎可以轻松地插入 UIMA 框架。IBM 已经声明有几家业务合作伙伴正在开发与 UIMA 兼容的文本分析组件。与 UIMA 兼容的开放源码组件也可以从 University of Sheffield 的 GATE 项目获得（参见参考资料）。

　　另一个扩展是，不是将这个应用程序部署在 SDK 上的 UIMA 框架实现中，而是部署在支持的 IBM 产品上：WebSphere Information Integrator OmniFind Edition。OmniFind 支持 UIMA 并添加了其他支持，比如从许多不同类型的数据库中收集文档，以及集成文本分析和文本搜索来提供语义文本搜索。在这种情况下，一定要使用从 developerWorks 获得的兼容 OmniFind 的 SDK 版本。

　　在 IBM Research 的推动下，UIMA 框架还在继续发展。尽管本文主要关注文本分析，但是 UIMA 还可以用于分析其他类型的非结构化信息，比如音频和图像。

　　致谢

　　作者希望感谢 IBM Hursley Laboratory 的 Graham Bent 将 DB2 Intelligent Miner 与文本分析组合起来，还要感谢 Internet Movie Database 允许使用其中的内容。

阅读(474) | 评论(0) | 转发(0) |

上一篇：使用UIMA和DB2数据库进行的文本挖掘（8）

下一篇：技术走势：IBM DB2数据库用于信息服务

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6