博客首页 注册 建议与交流 排行榜 加入友情链接
推荐 投诉 搜索: 帮助

执着的小雨

  xiaoyuonline.cublog.cn

关于作者
姓名:小雨
职业:IT
年龄:25
位置:北京(为奥运加油!)
个性介绍:做最好的自己!
|| << >> ||
我的分类


在限定网站爬行时,如何提高larbin的速度
关键词:限定网站、速度、larbin
   根据需要,有时可能需要限定到一个(些)网站采集网页,如果网站数不是很多,会发现下载的速度慢到无法忍受。原因就是larbin的策略都是从全网爬行的角度考虑的,但可以从以下几个方面修改来提高速度:
    1、将larbin.conf里面的waitDuration设置为1,这里不再考虑polite^_^, 设置为1大多数网站其实还能忍受;
    2、将types.h里面的maxUrlsBySite修改为254;
    3、将main.cc里面的代码做如下修改:
  // see if we should read again urls in fifowait
  if ((global::now % 30) == 0) {
    global::readPriorityWait = global::URLsPriorityWait->getLength();
    global::readWait = global::URLsDiskWait->getLength();
  }
  if ((global::now % 30) == 15) {
    global::readPriorityWait = 0;
    global::readWait = 0;
  }
相信做了上述修改后你就会发现效果比原来的速度提高很多。
  

发表于: 2007-06-04,修改于: 2007-09-03 17:31,已浏览822次,有评论0条 推荐 投诉


网友评论
 发表评论