2.系统功能
Google通过两个重要功能来产生高精确度的结果。第一,它利用互联网的链接结构为每个网页计算出一个高质量的排名。这个排名被称为PageRank[注一],具体在Larry Page98年的论文[]中有详述。第二,Google利用链接本身来提高搜索结果的质量。
2.1 : 给互联网带来秩序
现有的在 很大程度上忽略了一个重要资源--把互联网看做是一个引用关系(链接关系)图(见第一部分的注解)。我们已经产生了包含5亿1千8百万这样的超文本链接 (就是网页指向网页的链接)的地图--这是对整个互联网的一个相当显著的采样。这样的地图让我们能快速计算网页的“PageRank”--一个对于网页被 引用程度的客观衡量,而被引用程度与人们对于网页重要性的主观认识也很好地吻合。由于这样的吻合,PageRank成为对用关键字搜索网页返回的结果进行 排序的极好方式。对于最热门的分类,局限于网页标题进行简单的文字查找,PageRank排序后的搜索结果效果极好。而在整个Google系统中进行全文 查找,PageRank的作用也是非常显著的。
2.1.1 计算简述
学术文献的引用机制被应用到上--主要就是计算一个网页被引用,或被反向链接的次数。这给出了对一个网页重要性或质量的估计。进一步发展了这个想法:来自不同页面的链接被给以不同的权重,并依据一个网页上链接的个数正态化。PageRank的定义如下:
我们假定网页 A 有若干其他网页(T1...Tn)指向它(即引用关系)。参数d是一个0,1之间的阻尼系数。我们通常把d设为0.85。下一节会有关于d的详述。C(A)是从网页A指向其他网页的链接个数。那么网页A的的计算如下:PageRank,或PR(A)可以通过一个简单的循环算法来计算。这对应于正态化后的互联网链接矩阵的主要艾根向量的计算。另外,2千6百万网页的PageRank可以在一台中型服务器上,通过几小时的计算完成。这里有很多细节超出了本论文的讨论范围。
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
我们注意到构成一个分布于所有网页上的概率分布函数,因此所有网页的PageRank总和应该为 1。
2.1.2 直观解释
可以被想像成一个对用户行为建立的模型。我们假想一个“随机上网者”;随机地给他一个网页;他漫无目的地点击网页的链接,而从来不点“返回键”;最终他觉 得烦了,又从另一个随机的网页从新开始。在上述模型中,“随机上网者”访问一个页面的概率就是这个页面的PageRank。而阻尼系数d,则是我们的“随 机上网者”在访问了一个页面后,觉得烦了,开始访问一个新的页面的概率。上述模型的一个重要变形是把阻尼系数d加到一个网页上,还是加到一组网页上。这个 变形使得故意欺骗系统获得高排名的企图几乎变成不可能的。我们对PageRank有若干延伸,详见这里[]。
另一个直观的解释是如果有很多其他网页指向一个页面,或者其他有很高的 网页指向这个页面,该页面应该有较高的PageRank。直觉告诉我们,如果一个网页被互联网上的很多其他网页引用,它应该是值得关注的。而那些只有一个 引用的页面,如果它来自象Yahoo!首页,那大约这个网页也值得看看。如果一个网页质量不高或根本就是一个死链接,Yahoo首页多半不会链接它。 PageRank 考虑了上述两种以及之间的各种情况,它用递归方式把网页的权重通过互联网的链接结构传播出去。
2.2 锚链接(Anchor,是HTML的语法,即网页链接)的文本
链接的文字在我们的中受到特殊处理。大多数搜索引擎把链接中的文本部分(比如这 个链接中的keso)归属于这个链接所在的网页。而我们除此之外,还把它归属于这个链接指向的页面。这有几个好处。第一,锚链接对被指向网页的描述,通常 比网页本身的描述更准确。第二,锚链接可能指向那些不能被建立文本索引的文档,如图片、程序、数据库。这使得现在不能爬行搜索的页面可以被搜索到了。注 意,以前从未被爬行搜索过的页面可能会产生问题,因为它们的有效性从未被验证过。比如搜索引擎甚至会返回一个有链接指向,但其实根本不存在的页面。然而, 由于我们可以对结果排序,这个问题很少会出现。
把锚链接中的文本传播到被指向的页面这个想法,在World Wide Web Worm [] 已经被实施了。主要用于对非文本文件的搜索,和把搜索结果扩展到更多下载文档。而我们使用锚链接,主要是因为它可以提供高质量的结果。有效使用锚链接在技 术上是很难实现的,因为大量数据需要处理。在我们现在爬行搜索过的2千4百万网页中,我们为2亿5千9百万锚链接建立了索引。
2.3 其他功能
除了使用PageRank和利用锚链接中的文本外,Google还有其他一些功能。第一,它有所有网页的位置信息,因此在搜索过程中充分应用了接近程度。 第二,Google 记录网页的一些视觉表现,如单词的字体大小。大字体的权重比小字体要高。第三,完整的原始HTML页面被保存下来(即Google的 网页快照功能)。[注一] 可以译为网页排名,建议后面就用原文了。另外,Page 恰恰是Google创始人之一Larry Page的姓。