Chinaunix首页 | 论坛 | 博客
  • 博客访问: 285176
  • 博文数量: 395
  • 博客积分: 26200
  • 博客等级: 上将
  • 技术积分: 6291
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-19 15:41
文章分类

全部博文(395)

文章存档

2011年(395)

我的朋友

分类:

2011-05-17 17:51:18

关于百度快照更新问题的百度蜘蛛群投票假想

  对于很多新手站长来说,经常有这样的疑惑,为什么蜘蛛天天爬行,但是网站的快照却不更新。今天冰山一角来给大家分享下一种蜘蛛假想。

  蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它们各自负责不同的分工。具体的分工我也还了解不完全,可以知道的是分工可以分为新网页的爬行和旧网页的爬行。如123.125.*.*爬行新网页居多,61.135.*.*以爬行旧网页居多,百度还有其他ip段的蜘蛛,我对福州现代妇产医院网的观察,这2类比较常见。网站快照更新最快的当属首页,不是首页的话你可能被K了,因为首页权重最高,而且都会调用最新内容,也最容易被蜘蛛发现。刚刚所说的蜘蛛是一群,所以任何一只蜘蛛都是不会在一个网站一直呆着,所以虽然说百度蜘蛛天天呆在你的网站,但不见得群蜘蛛都一直呆在你的网站。蜘蛛在进驻你的网站后,开始各自分配不同的监控区域,有的蜘蛛负责head,有的蜘蛛负责root,有的负责body等等,body里面又有不同的蜘蛛干不同的事。也就是说同一只蜘蛛只负责小块区域,而且只会在一天的某些时段来过,当它发现你有更新的话,明天再来,如果没有的话给你个304,,304多了,它就会去减少爬行的频率,具体频率长什么样我也不清楚,理论模型应该是正弦曲线。

  同理,所有的蜘蛛使用同一规则的话,就会出现监控head、root等区域的蜘蛛比较懒,body部分的比较勤快,不过,body中间也有懒惰的。如果你的网站天天更新,那么body更新区域的都是200,其他的是304.那么百度要考虑给你最新的快照呢还是不给?于是就要投票表决,因为是群蜘蛛嘛,蜘蛛们都有投票权,才显得公平,但是又有一个问题,蜘蛛的分量不同,如body区的蜘蛛,工作比较辛苦,head区就比较轻松,所以蜘蛛投票需要分权,body的蜘蛛权值高,root区的权值低,当然中间还有不等的权值。经加权后的计算结果来决定百度给不给该网站最新快照。这就是为什么网站天天更新但是快照不更新的原因之一。

  这样一来的话,我们可以从以下几个方面入手解决快照慢的问题,一个是让body的蜘蛛更勤快,提升带回200蜘蛛的权值,给投票带来优势。二是减少监控区,监控区域太多,那么无所事事的蜘蛛就越多,和我国的有关部门一样,所以我们要做到精简,那么拉后腿的蜘蛛就要说再见了。

    下面来讲为什么百度会对改版的网站降权,原因其实很简单,原先进驻网站的蜘蛛因为只是负责小区域,当你改版后,它发现自己的区域没了,手足无措,于是百度就将蜘蛛召回,然后重新观察,放出蜘蛛观察员,然后再把网站分小块,改天再派蜘蛛进去,重新开始蜘蛛的工作,那么你的站就恢复正常了。
  
    说了这么多,发现自己行文的风格变了,不过拟人化会更容易理解。
本文源自:
阅读(123) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~