Chinaunix首页 | 论坛 | 博客
  • 博客访问: 21003
  • 博文数量: 15
  • 博客积分: 911
  • 博客等级: 准尉
  • 技术积分: 230
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-05 14:24
文章分类
文章存档

2011年(15)

我的朋友
最近访客

分类:

2011-01-29 13:45:34

来自CNNIC的第十七次中国互联网发展状况统计报告的数据:截止2005年12月31日国内上网用户总人数为1.1l亿人;在网民经常使用的网络服务、功能调查中,搜索引擎的使用率为65.7% ,位居第2。由以上数据我们不难确定搜索引擎服务在信息社会中的重要地位。从1990年,Tim Berners—Lee正式开始运行基于H1-rP协议的万维网至今,互联网页面的数量始终以跳跃式的发展速度激增。根据搜索引擎ASK Jeeves公司高级产品经理Antonio Guli和爱荷华大学教授Alessio Signorini在2005年5月共同作出的一项研究表明,主流搜索引擎已经可以索引到全球互联网“可见网页” 中85%的网页数量,即超过ll5亿页文件。虽然尚不能覆盖到整个互联网,可是这些索引页面反馈回来的结果量已经很大了,人们不可能对结果一一浏览,对搜索引擎来说收录页面数量的多少已不再是关键,关键是在于怎样能把最有价值的信息优先输出到命中结果页面。这方面的研究贯穿于网页获取到建立索引的整个搜索引擎工作过程,我们在这里主要对结果的改进提出些建设性意见。

 

搜索引擎原理的分析和改进目前各个搜索引擎对机器人抓取网页、网页内容解析、建立索引文档等均有自己复杂的技术,但是其中最能体现搜索引擎设计思想的就是对搜索结果的排序。面对成千上万的命中结果,用户不可能都去点击浏览每个页面,他所关注的也就是前几十条记录,那么能否把最合乎用户需求的结果排在前列直接影响着用户对该搜索引擎的满意程度。目前google和baidu两大搜索引擎均采用的是类似超链分析的排序技术,在这里我们以google的专利PageRank来进一步了解超链分析技术。

 

超链分析技术的原理

PageRank是Google用来确定一个页面相关性或者重要性的技术,通过其对互联网上每个页面计算出来的PR值来衡量网页的重要性并最终影响网页在结果中的排序。引用Google论文的原文,PageRank值是这样定义的:“我们假定页面A有T1⋯n这些页面指向它(即T1⋯n引用页面A)。参数d是一个设置于0与1之间的阻尼系数,我们通常设置d为0.85。另外,C (Tn)定义为网页Tn的出站链接数量。则页面A的PageRank值由下面的公式得出:PR (A)= (1一d)+d[PR (T1)/C (T1)+...+PR (Tn)/C (Tn)]

由以上公式可以看出三点:

(1)链接指向A的网页越多,A的PR值越高。即A的PR值和指向A的网页个数成正比,在公式中表示,n越大,A的PR值越高;

(2)链接指向A的网页,其来源网页PR值越高,A的PR值也越高。即A的PR值和指向A的网页自己的网页PR值成正比,在公式中表示,网页Tn的PR值越高,A的PR值也越高;

(3)链接指向A的网页,其链出的个数越多,A的PR值越低。即A的PR值和指向A的网页自己的网页链出个数成反比,在公式中表示,网页Tn链出个数越多,A的PR值越低。这种“从许多优质的页面连接过来的页面还是优质的页面” 的设计思路是符合网站发展的规律的,同时也摆脱了人为因素对结果的干扰。

 

任何一个页面的重要性均由互联网上其它页面“投票” 所决定,如果要提升在google结果中排序地位,只能更加注重自身网页内容的建设,以期望被PR值高的站点收录来提高自己的PR值,即使在众多网页中互相链接,也会因这些页面本来的PR值都很低而对最终PR值影响很小。从1998年的PageRank算法发明至今,google的排序算法一直以PageRank为主并未有太大的改进,只是在2003年11月的“Florida Update”和2004年初的“Austin Update” 中我们看到很多网站的排名突然下降,有的主要关键字排名甚至会消失。这两次比较大的更新业界统称为“sandbox”现象。虽然google并没有解释是否启用了新的排序算法,可是在2001年google就拥有的HillTop算法专利渐渐浮现在大家眼前。


参考资料:
阅读(467) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~