分类:
2008-04-12 09:59:24
来源:IBM developerWorks 中国网站 作者:知识管理技术主管 |
本文描述了一个简单的应用程序 Preston,它使用 UIMA 中的文本分析在文档中寻找提到的人名,用找到的数据建立一个数据库,并调用针对关联的数据挖掘来在共同提及关系网络中寻找强连接子图。尽管这个应用程序非常简单,但是它说明了使用 UIMA 在非结构化数据和结构化数据之间建立联系的主要特性。对这个应用程序可能进行的一种扩展是,通过进行更复杂的文本分析,识别更多类型的实体以及实体之间的关系。来自不同来源的标注器或文本分析引擎可以轻松地插入 UIMA 框架。IBM 已经声明有几家业务合作伙伴正在开发与 UIMA 兼容的文本分析组件。与 UIMA 兼容的开放源码组件也可以从 University of Sheffield 的 GATE 项目获得(参见 参考资料)。 另一个扩展是,不是将这个应用程序部署在 SDK 上的 UIMA 框架实现中,而是部署在支持的 IBM 产品上:WebSphere Information Integrator OmniFind Edition。OmniFind 支持 UIMA 并添加了其他支持,比如从许多不同类型的数据库中收集文档,以及集成文本分析和文本搜索来提供语义文本搜索。在这种情况下,一定要使用从 developerWorks 获得的兼容 OmniFind 的 SDK 版本。 在 IBM Research 的推动下,UIMA 框架还在继续发展。尽管本文主要关注文本分析,但是 UIMA 还可以用于分析其他类型的非结构化信息,比如音频和图像。 致谢 作者希望感谢 IBM Hursley Laboratory 的 Graham Bent 将 DB2 Intelligent Miner 与文本分析组合起来,还要感谢 Internet Movie Database 允许使用其中的内容。 |