Google的开始－－剖析大规模超文本网络搜索引擎　（二）-lc0060305-ChinaUnix博客

李庚睿（lgr）的博客 -- 蔚蓝天空garry.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lc0060305

博客访问： 3582536
博文数量： 1450
博客积分： 11163
博客等级：上将
技术积分： 11101
用户组：普通用户
注册时间： 2005-07-25 14:40

文章分类

全部博文（1450）

音视频直播（2）
linux各种服务器（3）
ARM学习（8）

ARM汇编指令（7）
手机开发（230）

android（2）

iphone（4）

symbian（224）
nginx 分析（6）
vi常用方法（13）
linux 常用命令（65）

linux shell 脚本（38）
window批处理资料（15）
黑客技术（20）

linux 系统安全（12）
搜索引擎与网络爬（32）
数据库技术（143）
网络技术（25）

网络测试方法（2）
操作系统研究（192）

android源码分析（1）

linux驱动（20）
程序设计（513）

调试技术（3）

测试方法（7）

性能调优（2）

debian（1）

JNI（5）

configure.ac（1）

Makefile.am（3）

设计模式（19）

算法与数据结构（4）

java程序开发（103）

web程序开发（41）
随笔（129）

地图集（14）

英语（4）

笑话（56）

我喜爱的诗（6）

我的小诗（4）
未分配的博文（54）

文章存档

2017年（5）

2014年（2）

2013年（3）

2012年（35）

2011年（39）

2010年（88）

2009年（395）

2008年（382）

2007年（241）

2006年（246）

2005年（14）

我的朋友

2.系统功能

Google通过两个重要功能来产生高精确度的结果。第一，它利用互联网的链接结构为每个网页计算出一个高质量的排名。这个排名被称为PageRank[注一]，具体在Larry Page98年的论文[]中有详述。第二，Google利用链接本身来提高搜索结果的质量。

2.1 : 给互联网带来秩序

现有的在很大程度上忽略了一个重要资源－－把互联网看做是一个引用关系（链接关系）图（见第一部分的注解）。我们已经产生了包含5亿1千8百万这样的超文本链接（就是网页指向网页的链接）的地图－－这是对整个互联网的一个相当显著的采样。这样的地图让我们能快速计算网页的“PageRank”－－一个对于网页被引用程度的客观衡量，而被引用程度与人们对于网页重要性的主观认识也很好地吻合。由于这样的吻合，PageRank成为对用关键字搜索网页返回的结果进行排序的极好方式。对于最热门的分类，局限于网页标题进行简单的文字查找，PageRank排序后的搜索结果效果极好。而在整个Google系统中进行全文查找，PageRank的作用也是非常显著的。

2.1.1 计算简述

学术文献的引用机制被应用到上－－主要就是计算一个网页被引用，或被反向链接的次数。这给出了对一个网页重要性或质量的估计。进一步发展了这个想法：来自不同页面的链接被给以不同的权重，并依据一个网页上链接的个数正态化。PageRank的定义如下：

我们假定网页　A　有若干其他网页（T1...Tn）指向它（即引用关系）。参数d是一个0,1之间的阻尼系数。我们通常把d设为0.85。下一节会有关于d的详述。C(A)是从网页A指向其他网页的链接个数。那么网页A的的计算如下：

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

我们注意到构成一个分布于所有网页上的概率分布函数，因此所有网页的PageRank总和应该为　1。

PageRank，或PR(A)可以通过一个简单的循环算法来计算。这对应于正态化后的互联网链接矩阵的主要艾根向量的计算。另外，2千6百万网页的PageRank可以在一台中型服务器上，通过几小时的计算完成。这里有很多细节超出了本论文的讨论范围。

2.1.2 直观解释

可以被想像成一个对用户行为建立的模型。我们假想一个“随机上网者”；随机地给他一个网页；他漫无目的地点击网页的链接，而从来不点“返回键”；最终他觉得烦了，又从另一个随机的网页从新开始。在上述模型中，“随机上网者”访问一个页面的概率就是这个页面的PageRank。而阻尼系数d，则是我们的“随机上网者”在访问了一个页面后，觉得烦了，开始访问一个新的页面的概率。上述模型的一个重要变形是把阻尼系数d加到一个网页上，还是加到一组网页上。这个变形使得故意欺骗系统获得高排名的企图几乎变成不可能的。我们对PageRank有若干延伸，详见这里[]。

另一个直观的解释是如果有很多其他网页指向一个页面，或者其他有很高的网页指向这个页面，该页面应该有较高的PageRank。直觉告诉我们，如果一个网页被互联网上的很多其他网页引用，它应该是值得关注的。而那些只有一个引用的页面，如果它来自象Yahoo!首页，那大约这个网页也值得看看。如果一个网页质量不高或根本就是一个死链接，Yahoo首页多半不会链接它。 PageRank　考虑了上述两种以及之间的各种情况，它用递归方式把网页的权重通过互联网的链接结构传播出去。

2.2 锚链接（Anchor，是HTML的语法，即网页链接）的文本

链接的文字在我们的中受到特殊处理。大多数搜索引擎把链接中的文本部分（比如这个链接中的keso）归属于这个链接所在的网页。而我们除此之外，还把它归属于这个链接指向的页面。这有几个好处。第一，锚链接对被指向网页的描述，通常比网页本身的描述更准确。第二，锚链接可能指向那些不能被建立文本索引的文档，如图片、程序、数据库。这使得现在不能爬行搜索的页面可以被搜索到了。注意，以前从未被爬行搜索过的页面可能会产生问题，因为它们的有效性从未被验证过。比如搜索引擎甚至会返回一个有链接指向，但其实根本不存在的页面。然而，由于我们可以对结果排序，这个问题很少会出现。

把锚链接中的文本传播到被指向的页面这个想法，在World Wide Web Worm [] 已经被实施了。主要用于对非文本文件的搜索，和把搜索结果扩展到更多下载文档。而我们使用锚链接，主要是因为它可以提供高质量的结果。有效使用锚链接在技术上是很难实现的，因为大量数据需要处理。在我们现在爬行搜索过的2千4百万网页中，我们为2亿5千9百万锚链接建立了索引。

2.3 其他功能

除了使用PageRank和利用锚链接中的文本外，Google还有其他一些功能。第一，它有所有网页的位置信息，因此在搜索过程中充分应用了接近程度。第二，Google　记录网页的一些视觉表现，如单词的字体大小。大字体的权重比小字体要高。第三，完整的原始HTML页面被保存下来（即Google的网页快照功能）。

[注一]　　可以译为网页排名，建议后面就用原文了。另外，Page　恰恰是Google创始人之一Larry Page的姓。

阅读(773) | 评论(0) | 转发(0) |

上一篇：为什么网络爬虫要实现DNS缓冲

下一篇：Google的开始－－剖析大规模超文本网络搜索引擎　（二）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6