Chinaunix首页 | 论坛 | 博客
  • 博客访问: 103593097
  • 博文数量: 19283
  • 博客积分: 9968
  • 博客等级: 上将
  • 技术积分: 196062
  • 用 户 组: 普通用户
  • 注册时间: 2007-02-07 14:28
文章分类

全部博文(19283)

文章存档

2011年(1)

2009年(125)

2008年(19094)

2007年(63)

分类:

2008-04-12 09:57:53

   来源:IBM developerWorks 中国网站    作者:知识管理技术主管

EIDB 使用的数据模型见 图 4。MENTIONS 表保存 NameReferenceAnnotator 探测到的对名字的各次提及, DOCENT 表保存文档实体。来自这些表的示例数据见 图 5。EIDB 中的其他表在后面讨论。尽管这个简单的模式对于我们现在的意图来说已经很好了,但是还可以让它更高效。例如,文档 URI 是长字符串,由一个不变的部分和一个与文档相关的部分组成。可以将不变的部分转移到一个单独的表中。在调用 EidbManager 的初始化方法时,它进行的数据库设置包括以 图 4 所示的模式创建四个表,所使用的 SQL 语句是从它的描述符文件中读取的。CAS 消费者 cas2jdbc 是 WebSphere® Information Integrator OmniFind Edition V8.3 的一部分,Preston 使用它填充 MENTIONSDOCENT 表。它是一个通用组件,用于在 XML 配置文件的控制下将来自文本 CAS 的数据写入关系数据库表中。从 UIMA 类型系统到关系模式的映射由配置文件控制。Preston 中 cas2jdbc 的部分配置见 清单 2,这显示如何用 CAS 中的 NameReference 实例信息填充 MENTIONS 表的两列。关于如何构造映射文件的完整细节,请参考 cas2jdbc 的文档。

  如图 5 所示,EIDB 的 MENTIONSDOCENT 表中的行是从文档 “He was married to 'Cicely Tyson' (qv) by 'Andrew Young (IV)' (qv) in the home of 'Bill Cosby' (qv). 'Bill Cosby' (qv) was the best man, and gave away the bride” 中产生的。注意,这里两次提到了 Bill Cosby,但是只有一个文档实体。为了简单,已经将键缩短了。

  图 5. MENTIONS 和 DOCENT 表中的行

  清单 2 中的代码段显示如何用 NameReference 标注的 name 特性填充 MENTIONS 表的 span 列,以及如何用 entity 特性填充 docent_id 列,这使用了 cas2jdbc 为 CAS 中的每个特性结构创建的惟一 ID。

  清单 2. Preston 中 CasConsumer cas2jdbc 的部分配置文件
	com.ibm.fisc.preston.NameReference	MENTIONS
name 1024 SPAN entity/com.ibm.fisc.preston.DocumentEntity:uniqueId() DOCENT_ID

阅读(453) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~