关键词:限定网站、速度、larbin
根据需要,有时可能需要限定到一个(些)网站采集网页,如果网站数不是很多,会发现下载的速度慢到无法忍受。原因就是larbin的策略都是从全网爬行的角度考虑的,但可以从以下几个方面修改来提高速度:
1、将larbin.conf里面的waitDuration设置为1,这里不再考虑polite^_^, 设置为1大多数网站其实还能忍受;
2、将types.h里面的maxUrlsBySite修改为254;
3、将main.cc里面的代码做如下修改:
// see if we should read again urls in fifowait
if ((global::now % 30) == 0) {
global::readPriorityWait = global::URLsPriorityWait->getLength();
global::readWait = global::URLsDiskWait->getLength();
}
if ((global::now % 30) == 15) {
global::readPriorityWait = 0;
global::readWait = 0;
}
相信做了上述修改后你就会发现效果比原来的速度提高很多。