分类: Java
2009-03-25 15:32:37
Yahoo!爬虫的效率对我们来说一直是个困扰,以IT技术点评6月份的情况为例,“Yahoo Slurp的读取数据量为170.31M,与之相对的是Googlebot的57.48M和BaiduSpider 39.26M,明显的投入产出比较差,有点可笑的是,6月Yahoo Slurp读取Robots.txt的次数为3104,平均每天100次,不知道是不是因为Yahoo Slurp从不记录Robots.txt的内容,每读取一次网页就要查看一下Robots.txt。”老实说,究竟为什么Yahoo!的效率低到这个程度我们也无从知晓,也许,是Yahoo!与Yahoo!中文造成的重复访问?
Anyway,希望新的索引爬虫的上线能够让这种情况多多少少得到些改善,不然,真的要考虑是不是干脆在robots.txt中禁掉了Yahoo! Slurp了。
Yahoo! Slurp的介绍
从Yahoo!对其的介绍看,应该还是值得期待的。——虽然目前从我们的Web服务器日志上仍看不出有什么改变。