Chinaunix首页 | 论坛 | 博客
  • 博客访问: 307541
  • 博文数量: 495
  • 博客积分: 24200
  • 博客等级: 上将
  • 技术积分: 5680
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-28 20:57
文章分类

全部博文(495)

文章存档

2011年(118)

2010年(153)

2009年(221)

2008年(3)

我的朋友

分类: Java

2009-03-25 15:32:37

Slurp:Yahoo!的新爬虫 :
          前段日子,Yahoo!宣布其新的网站爬虫已投入使用,根据David Simpson在Yahoo Search Blog上的说明,该新爬虫仍然沿用Yahoo!爬虫的传统名称,Slurp,但索引速度更快更有效率,与它的前辈相比,它大约可节省25%的访问请求和带宽占用。

  Yahoo!爬虫的效率对我们来说一直是个困扰,以IT技术点评6月份的情况为例,“Yahoo Slurp的读取数据量为170.31M,与之相对的是Googlebot的57.48M和BaiduSpider 39.26M,明显的投入产出比较差,有点可笑的是,6月Yahoo Slurp读取Robots.txt的次数为3104,平均每天100次,不知道是不是因为Yahoo Slurp从不记录Robots.txt的内容,每读取一次网页就要查看一下Robots.txt。”老实说,究竟为什么Yahoo!的效率低到这个程度我们也无从知晓,也许,是Yahoo!与Yahoo!中文造成的重复访问?

  Anyway,希望新的索引爬虫的上线能够让这种情况多多少少得到些改善,不然,真的要考虑是不是干脆在robots.txt中禁掉了Yahoo! Slurp了。

Yahoo! Slurp的介绍
  从Yahoo!对其的介绍看,应该还是值得期待的。——虽然目前从我们的Web服务器日志上仍看不出有什么改变。

       

阅读(263) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~