Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1538008
  • 博文数量: 465
  • 博客积分: 8915
  • 博客等级: 中将
  • 技术积分: 6365
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-30 15:05
文章分类

全部博文(465)

文章存档

2017年(33)

2016年(2)

2015年(4)

2014年(29)

2013年(71)

2012年(148)

2011年(178)

分类: IT业界

2012-01-11 20:22:06

两个概念模型及算法之间的关系

在介绍具体链接分析算法之前,首先介绍两个概念模型,并对各个链接分析算法之间的关系进行说明,这样有助于读者从宏观角度理解各个算法的基本思路与传承关系。

随机游走模型(Random Surfer Model

互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank 算法在内的很多链接分析算法都是建立在随机游走模型基础上的。

6-4 给出了随机游走模型的示意图。在最初阶段,用户打开浏览器浏览第1 个网页,假设我们有一个虚拟时钟用来计时,此时可以设定时间为1,用户在看完网页后,对网页内某个链接指向的页面感兴趣,于是点击该链接,进入第2 个页面,此时虚拟时钟再次计时,时钟走向数字2,如果网页包含了k 个出链,则用户从当前页面跳转到任意一个链接所指向页面的概率是相等的。用户不断重复以上过程,在相互有链接指向的页面之间跳转。如果对于某个页面所包含的所有链接,用户都没有兴趣继续浏览,则可能会在浏览器中输入另外一个网址,直接到达该网页,这个行为称为远程跳转(Teleporting)。假设互联网中共有m 个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

 

下面我们给出一个具体的随机游走模型的例子,为简单起见,该例子并未引入远程跳转行为。

在如图 6-5 所示的例子里,假设互联网由ABC 3 个网页构成,其相互链接关系如图中页面节点之间的有向边所示。根据链接关系,即可计算页面节点之间的转移概率,比如对于节点A 来说,只有唯一一个出链指向节点B,所以从节点A 跳转到节点B 的概率为1,对于节点C 来说,其对节点A B 都有链接指向,所以转向任意一个其他节点的概率为1/2

 

 

 

 

 

 

假设在时刻1,用户浏览页面A,之后经由链接进入页面B,然后进入页面C,此时面临两种可能选择,跳转进入页面 A 或者页面B 皆可,两者概率相同,都为1/2

假设例子中的互联网包含不止 3 个页面,而是由10 个页面构成,此时用户既不想跳回页面A,也不想跳回页面B,则可以按照1/10 的概率跳入其他任意一个页面,即进行远程跳转。

子集传播模型

子集传播模型是从诸多链接分析算法中抽象出来的概念模型(参见图6-6)。其基本思想是在做算法设计时,把互联网网页按照一定规则划分,分为两个甚至是多个子集合。其中某个子集合具有特殊性质,很多算法往往从这个具有特殊性质的子集合出发,给予子集合内网页初始权值,之后根据这个特殊子集合内网页和其他网页的链接关系,按照一定方式将权值传递到其他网页。

 

本章介绍的一些链接分析算法符合子集传播模型,比如HITS 算法和Hilltop 算法及其衍生算法,在“网页反作弊”一章(第8 章)会看到更多符合此模型的链接分析算法。

子集传播模型是个高度抽象的算法框架,很多算法可以认为是属于此框架的具体实例,即整体思路如上面所描述的流程,通常在以下几个方面各自存在不同。

如何定义特殊子集合,即在确定子集合内的网页应该有哪些特殊性质,具体算法

规则不同。

在确定了特殊子集合所具有的性质后,如何对这个特殊子集合内网页给予一定的

初始分值?不同算法打分方式各异。

从特殊子集合将其分值传播到其他网页时,采取何种传播方式?可传播的距离有

多远?不同算法在此阶段也大都有差异。

注意:子集传播模型是本书作者从具体链接分析算法中归纳出的抽象模型,未见有文献明确提出,请读者阅读时谨慎参考。

链接分析算法之间的关系

到目前为止,学术界已经提出了很多链接分析算法,图6-7 列出了其中影响力较大的一些算法及其相互关系,图中不同算法之间的箭头连接代表算法之间的改进关系,比如SALSA 算法即融合了PageRank HITS 算法的基本思路。其他算法所代表的关系与此类似,可在图中明显看出算法间的传承关系。

 

尽管链接算法很多,但是从其概念模型来说,基本遵循上述小节介绍的随机游走模型和子集传播模型。而从图中可看出,在众多算法中,PageRank HITS 算法可以说是最重要的两个具有代表性的链接分析算法,后续的很多链接分析算法都是在这两个算法基础上衍生出来的改进算法。

在本章后续章节中,将详细介绍PageRank 算法、HITS 算法、SALSA 算法、主题敏感PageRank 算法和Hilltop 算法。这些算法大都已被不同的商业搜索引擎所采用,在实际生活中发挥了很重要的作用。对于图6-7 所列出的其他链接分析算法,将在本章末尾简述其原理。

 

 

 

 

——本段文字节选自《这就是搜索引擎:核心技术详解》

图书详细信息:http://blog.chinaunix.net/space.php?uid=13164110&do=blog&id=3054077

阅读(891) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~