Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3472006
  • 博文数量: 1450
  • 博客积分: 11163
  • 博客等级: 上将
  • 技术积分: 11101
  • 用 户 组: 普通用户
  • 注册时间: 2005-07-25 14:40
文章分类

全部博文(1450)

文章存档

2017年(5)

2014年(2)

2013年(3)

2012年(35)

2011年(39)

2010年(88)

2009年(395)

2008年(382)

2007年(241)

2006年(246)

2005年(14)

分类: LINUX

2008-09-09 16:50:58

2.系统功能


Google通过两个重要功能来产生高精确度的结果。第一,它利用互联网的链接结构为每个网页计算出一个高质量的排名。这个排名被称为PageRank[注一],具体在Larry Page98年的论文[]中有详述。第二,Google利用链接本身来提高搜索结果的质量。

2.1 : 给互联网带来秩序


现有的在 很大程度上忽略了一个重要资源--把互联网看做是一个引用关系(链接关系)图(见第一部分的注解)。我们已经产生了包含5亿1千8百万这样的超文本链接 (就是网页指向网页的链接)的地图--这是对整个互联网的一个相当显著的采样。这样的地图让我们能快速计算网页的“PageRank”--一个对于网页被 引用程度的客观衡量,而被引用程度与人们对于网页重要性的主观认识也很好地吻合。由于这样的吻合,PageRank成为对用关键字搜索网页返回的结果进行 排序的极好方式。对于最热门的分类,局限于网页标题进行简单的文字查找,PageRank排序后的搜索结果效果极好。而在整个Google系统中进行全文 查找,PageRank的作用也是非常显著的。

2.1.1 计算简述

学术文献的引用机制被应用到上--主要就是计算一个网页被引用,或被反向链接的次数。这给出了对一个网页重要性或质量的估计。进一步发展了这个想法:来自不同页面的链接被给以不同的权重,并依据一个网页上链接的个数正态化。PageRank的定义如下:
我们假定网页 A 有若干其他网页(T1...Tn)指向它(即引用关系)。参数d是一个0,1之间的阻尼系数。我们通常把d设为0.85。下一节会有关于d的详述。C(A)是从网页A指向其他网页的链接个数。那么网页A的的计算如下:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

我们注意到构成一个分布于所有网页上的概率分布函数,因此所有网页的PageRank总和应该为 1。

PageRank,或PR(A)可以通过一个简单的循环算法来计算。这对应于正态化后的互联网链接矩阵的主要艾根向量的计算。另外,2千6百万网页的PageRank可以在一台中型服务器上,通过几小时的计算完成。这里有很多细节超出了本论文的讨论范围。

2.1.2 直观解释

可以被想像成一个对用户行为建立的模型。我们假想一个“随机上网者”;随机地给他一个网页;他漫无目的地点击网页的链接,而从来不点“返回键”;最终他觉 得烦了,又从另一个随机的网页从新开始。在上述模型中,“随机上网者”访问一个页面的概率就是这个页面的PageRank。而阻尼系数d,则是我们的“随 机上网者”在访问了一个页面后,觉得烦了,开始访问一个新的页面的概率。上述模型的一个重要变形是把阻尼系数d加到一个网页上,还是加到一组网页上。这个 变形使得故意欺骗系统获得高排名的企图几乎变成不可能的。我们对PageRank有若干延伸,详见这里[]。

另一个直观的解释是如果有很多其他网页指向一个页面,或者其他有很高的 网页指向这个页面,该页面应该有较高的PageRank。直觉告诉我们,如果一个网页被互联网上的很多其他网页引用,它应该是值得关注的。而那些只有一个 引用的页面,如果它来自象Yahoo!首页,那大约这个网页也值得看看。如果一个网页质量不高或根本就是一个死链接,Yahoo首页多半不会链接它。 PageRank 考虑了上述两种以及之间的各种情况,它用递归方式把网页的权重通过互联网的链接结构传播出去。

2.2 锚链接(Anchor,是HTML的语法,即网页链接)的文本


链接的文字在我们的中受到特殊处理。大多数搜索引擎把链接中的文本部分(比如这 个链接中的keso)归属于这个链接所在的网页。而我们除此之外,还把它归属于这个链接指向的页面。这有几个好处。第一,锚链接对被指向网页的描述,通常 比网页本身的描述更准确。第二,锚链接可能指向那些不能被建立文本索引的文档,如图片、程序、数据库。这使得现在不能爬行搜索的页面可以被搜索到了。注 意,以前从未被爬行搜索过的页面可能会产生问题,因为它们的有效性从未被验证过。比如搜索引擎甚至会返回一个有链接指向,但其实根本不存在的页面。然而, 由于我们可以对结果排序,这个问题很少会出现。

把锚链接中的文本传播到被指向的页面这个想法,在World Wide Web Worm [] 已经被实施了。主要用于对非文本文件的搜索,和把搜索结果扩展到更多下载文档。而我们使用锚链接,主要是因为它可以提供高质量的结果。有效使用锚链接在技 术上是很难实现的,因为大量数据需要处理。在我们现在爬行搜索过的2千4百万网页中,我们为2亿5千9百万锚链接建立了索引。

2.3 其他功能

除了使用PageRank和利用锚链接中的文本外,Google还有其他一些功能。第一,它有所有网页的位置信息,因此在搜索过程中充分应用了接近程度。 第二,Google 记录网页的一些视觉表现,如单词的字体大小。大字体的权重比小字体要高。第三,完整的原始HTML页面被保存下来(即Google的 网页快照功能)。


[注一]  可以译为网页排名,建议后面就用原文了。另外,Page 恰恰是Google创始人之一Larry Page的姓。
阅读(732) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~