Chinaunix首页 | 论坛 | 博客
  • 博客访问: 5728
  • 博文数量: 12
  • 博客积分: 730
  • 博客等级: 军士长
  • 技术积分: 190
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-06 21:40
文章分类
文章存档

2011年(12)

我的朋友
最近访客

分类:

2011-01-25 12:59:33

任何一个页面的重要性均由互联网上其它页面“投票” 所决定,如果要提升在google结果中排序地位,只能更加注重自身网页内容的建设,以期望被PR值高的站点收录来提高自己的PR值,即使在众多网页中互相链接,也会因这些页面本来的PR值都很低而对最终PR值影响很小。从1998年的PageRank算法发明至今,google的排序算法一直以PageRank为主并未有太大的改进,只是在2003年11月的“Florida Update”和2004年初的“Austin Update” 中我们看到很多网站的排名突然下降,有的主要关键字排名甚至会消失。这两次比较大的更新业界统称为“sandbox”现象。虽然google并没有解释是否启用了新的排序算法,可是在2001年google就拥有的HillTop算法专利渐渐浮现在大家眼前。

 

超链分析技术的原理

PageRank是Google用来确定一个页面相关性或者重要性的技术,通过其对互联网上每个页面计算出来的PR值来衡量网页的重要性并最终影响网页在结果中的排序。引用Google论文的原文,PageRank值是这样定义的:“我们假定页面A有T1⋯n这些页面指向它(即T1⋯n引用页面A)。参数d是一个设置于0与1之间的阻尼系数,我们通常设置d为0.85。另外,C (Tn)定义为网页Tn的出站链接数量。则页面A的PageRank值由下面的公式得出:PR (A)= (1一d)+d[PR (T1)/C (T1)+...+PR (Tn)/C (Tn)]

由以上公式可以看出三点:

(1)链接指向A的网页越多,A的PR值越高。即A的PR值和指向A的网页个数成正比,在公式中表示,n越大,A的PR值越高;

(2)链接指向A的网页,其来源网页PR值越高,A的PR值也越高。即A的PR值和指向A的网页自己的网页PR值成正比,在公式中表示,网页Tn的PR值越高,A的PR值也越高;

(3)链接指向A的网页,其链出的个数越多,A的PR值越低。即A的PR值和指向A的网页自己的网页链出个数成反比,在公式中表示,网页Tn链出个数越多,A的PR值越低。这种“从许多优质的页面连接过来的页面还是优质的页面” 的设计思路是符合网站发展的规律的,同时也摆脱了人为因素对结果的干扰。

 

搜索引擎原理的分析和改进目前各个搜索引擎对机器人抓取网页、网页内容解析、建立索引文档等均有自己复杂的技术,但是其中最能体现搜索引擎设计思想的就是对搜索结果的排序。面对成千上万的命中结果,用户不可能都去点击浏览每个页面,他所关注的也就是前几十条记录,那么能否把最合乎用户需求的结果排在前列直接影响着用户对该搜索引擎的满意程度。目前google和baidu两大搜索引擎均采用的是类似超链分析的排序技术,在这里我们以google的专利PageRank来进一步了解超链分析技术。

 

HillTop算法指出:在利用 页面等级“ 来寻找” 权威“ 网页时,不应单纯依赖于PR值的大小来定夺,而应将重点放在它与查询主题的相关性上:即不但需要考虑网页的页面等级,还要考虑该网页的页面主题内容与查询主题的相关性是否相称。若一个网页只与查询主题沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,具有相同主题的相关文档链接对于搜索者的价值会更大。在最初的PageRank算法中,指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。如果该页面只是在内容中出现了关键词,可主题内容与该关键词相差很大,也会因其存在的页面PR值大而获得一个比较高的排名。HillTop算法关于相同主题的相关文档的链接对于搜索者价值会更大的描述很好的弥补了PageRank算法的不足。目前PageRank算法结合HillTop算法的排序技术是google决定网页排名的重要手段。

 

这篇文章对您有帮助吗?欢迎继续浏览  返回首页


参考资料:
阅读(204) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~