不仅仅是一个Web信息提取工具/信息抓取工具,它还是一个驻留在Web上的服务,采用一种协同方式由用户维护网页的信息结构。 去年产品第一版发布后,一个用户在10月份问我:作为一个信息提取工具为什么要做成Web驻留的方式。MetaSeeker的目标是共享和共建,共享的是 语义元数据,也就是页面内容结构的描述信息;共建的是语义知识库,用这个知识库来知道信息集成和格式转换的工具和应用。
想写一篇能够清楚地表达上述思想的文章,一直未成行,近日,读了,觉得该文作者写了我想写的东西,而且表达得比我想表达的还要清楚。
可预期的和不能想象的用途
作者用一个词hosted RDF services表示这种服务,而且实现也是其特性之一。在RDF的支持方面与MetaSeeker服务是有出入的,MetaSeeker可以称为hosted XML services,MetaSeeker的作者一直坚持一个信念:产品和服务要实用,不能像FreeBase那样跃进。因为当前主机上存储和共享的是信息结构,主要用于信息提取和网页结构的重构,用数状的XML文档足以表述,而RDF却像一把牛刀。因此,SPARQL也省了,只用HTTP Get获取,即XML文档即可。
作者首先强调在手机领域的应用,即将互联网内容进行格式化后适合小屏幕显示,作者出示了自己做的浏览器Mosembro,然后又总结了几个应用领域,引用如下:
- 个性化搜索和比价服务
- 智能代理
- 集成到浏览器上的站内搜索
- 自动表单提交
- 个性化RSS feed
- Web内容备份
- Web内容转移
但是可以看出,大家并没有想出一个杀手级的应用,大家都知道有了语义元数据,就是context-aware,能够提高用户的浏览体验,但是,应该是一种什么样的体验呢?该文作者提到了Aurora,,可能想激发读者的想象。
能用元数据做些什么?同样也困扰着本文作者,很多人都说元数据能做你能够想象的很多事,本文作者作为MetaSeeker的核心开发成员,更希望看到一些实实在在的应用。
一文从出发也强调了context-aware的价值,还举了两个例子:和,能够看到利用元数据带来的体验的改善。
还有微软的特性,据说在IE8中要重新激活。
这些应用都是基于context-aware的,只是一线曙光,要耐心等待,但是可以肯定必然是光芒四射的。