Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3365062
  • 博文数量: 530
  • 博客积分: 13360
  • 博客等级: 上将
  • 技术积分: 5473
  • 用 户 组: 普通用户
  • 注册时间: 2006-07-13 13:32
文章分类

全部博文(530)

文章存档

2017年(1)

2015年(2)

2013年(24)

2012年(20)

2011年(97)

2010年(240)

2009年(117)

2008年(12)

2007年(8)

2006年(9)

分类: 系统运维

2009-07-17 16:28:30

语义网综述
目录
1.语义WEB目标

2.
语义技术应用
3.语义Web体系结构



1.语义WEB目标
   目标:协助人类用户处理网上的日常事务,而不是实现人类层次的人工智能。
   当前Web上内容是设计给人阅读的,而不是让计算机程序按其意义进行操作的。计算机能熟练地解析网页的版面,知道哪里是标题,哪里有与其他页面的链接。但是,它分辨不出个人主页和天气预报的区别,因为没有可靠的方法来处理其中的语义,没有办法智能地理解网页内容和进行操作。
   语义Web就是想弥补这方面的不足,为网页扩展了计算机可处理的语义信息。语义Web中,各种资源被人为地赋予了各种明确的语义信息,计算机可以分辨和识别这些语义信息,并对其自动进行解释、交换和处理。
   但是语义Web与人工智能中的语义网络是两个不同的概念,它的研究对象和所采用的方法与传统自然语言处理也是不同的,它对现有的Web进行了语义扩展,从而使其能被计算机做一定的理解和处理,从功能上看它将是一个能够“理解”人类信息的智能网络。将语义Web融入现在Web结构的初步努力已经在进行中了。不久的将来,当机器有更强的能力去处理和“理解”数据时,我们将看到很多重要的新功能。
   以上摘自《》

2.语义技术
1.1信息索引与检索
   信息检索的主要目的就是让用户通过查询找到需要的信息。现在有很多种信息检索系统,但主要分为以下两类:
   1)基于搜索方式的信息检索主要包括关键词搜索自然语言搜索。关键词搜索是基于关键词,一些无价值的词汇被过滤掉,它主要采用布尔算子,可能会带来较大的冗余信息。自然语言搜索是基于对用户的自然语言查询内容的文法、句法和语义分析实现的,因此能给出更加合适的结果。
   2)基于搜索结果的信息检索系统主要包括文档信息检索系统自然语言应答系统。信息检索系统给出的搜索结果是一个或多个文档。而自然语言应答系统是提供一个特定事实作为搜索结果。但对于回答“谁是美国1988 年的总统?”这样一个问题,需要深层的语言与语义分析,包括词义消歧等,这大大增加了系统实现的复杂度。
   语义理解技术机器翻译是目前搜索引擎的关键技术,应用这些技术的搜索引擎称为智能搜索引擎。由于它将信息检索从目前基于关键词的层面提高到基于知识(或概念) 的层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,如国外的搜索引擎Google, AskJeeves; 国内的搜索引擎网易、尤里卡、问一问、悠游等。

1.2 词义消歧
   词义消歧是一个重要的语义技术,它是自然语言问答系统、指代消解、机器翻译等的必要组成部分。基于它的目标就是确定一个词或者一个固定表达在具体上下文中的意义,词义消歧可以说是一种纯粹的语义技术。但作为一种规则,这种技术需要语言处理器作为基础,因为如果不将一个文本分割成一系列词、句子和固定表达,不知道它是否是名词或者动词,要在上下文环境里确定一个词的含义会非常困难。Google 拥有的应用语义技术公司(Applied Semantic Inc) 采用了Circa 技术,它包括语言处理器及其上的一个包含语义消歧模块和文摘工具的语义处理器。基于这种技术该公司提供了一种企业解决方案(分类、概念标志和文摘工具) 、广告解决方案(基于网站内容的关键词提取) 、域名解决方案等。

1.3 自动文摘
   自动文摘的目的是生成一个文档摘要,即包含主要意图和主要信息的短文。自动文摘可以让用户不必阅读全文就可以了解文档的主要内容,从而节省时间。基于不同标准的自动文摘可以分为不同的类型:基于处理语言的数量它分为单语言和多语言类型;基于文档长度是否可调节它分为用户可调文摘长度和固定文摘长度类型;基于提取信息(是否基于质询问题) 它分为静态文摘器(提取的内容独立于质询问题)和动态文摘器(基于质询问题提供个性化的摘要);基于具体技术它分为基于关键词、统计性数据等和深层的文本分析技术。

1.4 知识管理
   1)企业信息数据库的分类与聚类
   不同的企业都会积累大量的文档数据库,如专利、文章、技术文档、产品描述、商业信件等。这些信息往往都是凌乱的,使得查询非常困难和低效,而基于主题将凌乱的信息结构化有助于数据库中信息的查询和添加。文档的自动分类首先需要基于概念的含义从文档里提取出自动分类法。在文档里概念是通过一系列词汇和上下文关系表达的,理解文档里的主要意图有助于文档分类。在从语义上提取一些重要的概念后,不同的数学方法会被应用到概念分类中,如凝聚法(层次树), K2方法,模糊聚类等。另一种方法是应用人工本体论,即一个大型的数据库。在这里词和概念的意义通过不同的关系连接起来,如同义、反义、上位、下位等,这种关系一般取自WordNet 。
   除了自动文档分类法,文档分类还包括文档紧密关系评价,它主要是确定两个或多个文档之间语义紧密的程度。
   2)数据可视化
   可视化的目标是以图形形式表达信息,以便于用户理解。可视化的内容主要包括知识库、专利、文档聚类器、网站、本体论词汇等。就像文档聚类一样,可视化的第一步是从文档源提取主要观点、词汇、事实、日期和概念,然后统计处理。数据可视化方式主要有图解(静态图)、交互树、双曲线树、对象网络以及用于对象和分类的图表等。

1.5 本体论
   像词义消歧一样,本体论也是一个重要的语义技术,它是作为一种概念化的说明,是对客观存在的概念和关系的描述。它是通用意义上的概念定义集,是关于种类(Kind)和关系的词汇表。作为一种知识库,本体论反映了人们对周围事物词汇的认知,也就是说在本体论中各种概念及其之间的关系都被表示出来。比如每个人都知道桌子是一种家具,家具是物理实体,桌子有腿和桌面,与它同类的还有亭子、课桌、茶几等。这些知识都应该在本体论中得到反映。因此本体论是一种复杂的知识网络,在这里各种概念基于不同类型的关系连接起来, 应用本体论可以生成自动的文档和概念分级、分类和聚类。

1.6 机器翻译
   机器翻译(Machine Translation)是用计算机把一种自然语言(源语言)转变成另一种自然语言(目标语言),但不改变其语义的过程。机器翻译系统可以将不同语言的文档翻译为一种语言的文档,以便于不同语义机的进一步处理。它还可以用于以不同自然语言表达同一文档及其摘要等,这有助于节省用户时间,降低成本。用于机器翻译的基本方法主要有直接翻译转换方法国际语言翻译记忆统计翻译等。其中直接翻译是最简单、最普通的方法;翻译记忆法质量非产高,很少有错。当前用到的机器翻译系统有如多语言翻译系统 Prompt 2000 和Prompt XT, Google 内置的单语言网页翻译器等。
   以上摘自《
2005_现代语义技术及其应用

3.语义Web体系结构
   互联网的创始人Tim Berners-Lee在2000年提出了语义Web的概念和体系结构。

    在其体系结构中,第一层是Unicode和URI,它是整个语义Web的基础,Unicode(统一编码)处理资源的编码,URI(统一资源定位器)负责标识资源;第二层是XML+名空间+XML模式,用于表示数据的内容和结构;第三层是RDF+RDF模式,用于描述资源及其类型;第四层是本体词汇,用于描述各种资源之间的联系;第五层是逻辑,在下面四层的基础上进行逻辑推理操作;第六层是验证,根据逻辑陈述进行验证以得出结论;第七层是信任,在用户间建立信任关系。
    第二、三、四层是语义Web的关键层,用于表示Web信息的语义,也是现在语义Web研究的热点所在。可扩展标记语言XML (eXtensible Markup Language)让每个人都能创建自己的标签,来对网页或页面的部分文字进行注释。脚本,或者说是程序,可以将这些标签运用到复杂的应用中,不过程序编写者必须知道网页作者是如何使用每一个标签的。简而言之,XML允许用户在文档中加入任意的结构。资源描述框架RDF (Resource Description Framework )的基本结构是对象-属性-值三元组,也就相当于句子中的主语、动词和宾语。这些三元组可以用XML语法来表示。用这种结构描述由机器处理的大量数据,是非常自然的方法。RDF模式是一个描述RDF资源的属性(Property)和类(Class)的词汇表,提供了关于这些属性和类的层次结构的语义。
    因为两个系统可能采用不同的标识符表示同一概念,也可能用一个标识符表示不同的含义,程序若要在两个数据库之间进行信息的比较和合并,就必须了解某些标识符表示的是否是同一事物。对该问题的一个解决方法就是本体论 (Ontology)。本体是概念化的显式说明,包括分类和一套推理规则。分类定义对象的类别及其之间的关系,使我们能够表达实体之间的大量关系,而根据推理规则,程序可以进行自动推理。简单地说,就是在不同的系统间定义一本字典或者度量表,使它们对实体及其之间的关系达成共识,以便交流和共享。
    语义Web需要能够对Web文档中的术语含义进行形式化描述。 DAML+OIL(即DARPA代理标记语言+本体推论语言),OWL(Web本体语言),它们是W3C规范的重要扩充和改进,都是建立在人工智能知识表示基础之上的本体语言,提供了一种自然方式来描述在Web词间的类与子类之间的关系,以及在类与类之间(或子类与子类之间)关系上的限制。它们比RDF模式添加了更多的用于描述属性和类的词汇,例如类之间的不相交性(Disjointness)、等价性、更丰富的属性类型、属性特征等。
    当然,要实现语义Web是远远不够的,更主要的技术难题还在于要让电脑可以进行更多的“思考”和“推断”。为使语义Web工作,计算机必须能访问结构化的信息集合以及一套推理规则,据此进行自动推理。增加逻辑性——使用规则去推理,选择行动的方式以及回答问题的方法——是语义Web组织面临的一个任务。
    有了大量富含语义信息的网页,就好像有了一个巨大的全球互联的数据库。有了语义信息的帮助,人们开发出的软件代理Agent程序的智能和自动化将大大提高,它们从不同的资源中收集网页内容,搜索和处理信息并和其他程序交换信息,真正发挥语义Web的力量。当出现更多的机器可处理的网页内容和服务(包括更多的代理)时,通过代理之间的信息交换和协同工作,信息处理的效率将呈指数级增长,能更好地满足用户的需求。
  
以上摘自《》
 


总结:
1.主要语义技术
   本体论可以认为是
词义消歧技术的一个重要研究方向,其目的都是为了让机器能理解人类的语言。






阅读(2082) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~