本文无意对Web3.0下准确的定义,因为我的知识基础不足定义一个新技术,下面的内容是我阅读一文的理解。按原文作者的观点Web3.0就是语义网络。
什么是语义网络
语义网络(Semantic Web)是3W(World Wide Web)之父Tim Berners-Lee提出来的,机器之间通话时,该技术能够使机器理解对方说的是什么。原文作者认为有两种手段达到这个目的:
- 如果通信内容是自然语言文本,那么就需要对自然语言进行理解
- 由内容提供者或者通信发起方对内容进行注解,即除了本来的内容以外,还有关于内容是什么的元数据
第二种手段更容易被接受,当今是网络时代,计算机无时无刻不在互相对话,各种通信协议采用了对内容的注解的方法。只是互联网上的内容格式太自由,不能保证都携带元数据,即使都携带也不能保证互相理解,要有标准才行。
语义搜索引擎
原文作者主要提了几个例子,他们是:
- Yahoo(雅虎)宣称其搜索引擎要提取网络页面中包含的内容
- 的语义搜索
- 据说是对自然语言的语法进行处理,从中提取知识,提供搜索服务,试了一下,使用一个复杂的句子,而不是,why..., what is ..., 搜索结果很多都不相关
语义注解技术:RDFa和microformat(微格式)
RDF用一个三元组表示实体之间的关系。当前有些Web页面中含有这样的内容,今后会有更多服务利用这些内容。
在XHTML文档中使用符合标准的标签或者属性,对内容进行注解,原文举了几个例子
- Flickr使用标注照片的拍照位置
- LinkedIn使用, 和注解用户的联系信息
自动化的语义注解服务和工具
当前出现了一些服务和工具,能够自动地对网络上的页面内容进行注解,这样页面内容的原作者就被解放了,因为一边写内容一边注解还是挺麻烦的。原文作者列举了几个服务和产品。
- 据说Powerset也在向这个方向努力
MetaSeeker的语义注解能力
是一个Web信息提取工具包,同时,它具有强大的语义注解能力,主要是一个语义注解工具,为目标页面定义信息结构,而信息提取规则,即HTML wrapper(包装器)是根据信息结构自动计算产生的。