博客首页 注册 建议与交流 排行榜 加入友情链接
推荐 投诉 搜索: 帮助

执着的小雨

  xiaoyuonline.cublog.cn

关于作者
姓名:小雨
职业:IT
年龄:25
位置:北京(为奥运加油!)
个性介绍:做最好的自己!
|| << >> ||
我的分类


关于larbin的一些问题
问题一 

# do you want to follow external links

noExternalLinks

这段设置 如果 #noExternalLinks 是不是 就可以爬所有外网 连接 



问题二

是不是 如果larbin 中途 停止(关机) 再运行就从头 开始采集 



问题三 

我想把保存的文件 扩展名变成 .html 是否可以 



问题四 

我想用  GDB  一步一步跟踪 LARBIN  不知道 怎么下手 

Blog作者的回复:
回答一、不设置此项,限定范围可以看本博客里面的一篇文章;
回答二、不是,在options.h中设置reload可以从上次停止的地方开始运行。
以上两个问题建议仔细看文档。
回答三、可以,在saveuseroutput.cc中做些修改就可以。
回答四、用make debug编译,调试可以看gdb的帮助。

发表于: 2007-07-05,修改于: 2007-09-03 17:31,已浏览715次,有评论1条 推荐 投诉


网友评论
网友: luowei 时间:2007-11-14 14:35:15 IP地址:61.172.87.★
我想问一下,larbin是不是最多只能装入6400万个URL呀?可不可以加到几亿呀?

Blog作者的回复:
可抓取的最大网页数是可配的,你可以增大这个值。现在larbin采取的消重策略在采集那么大量的情况下肯定会有大量的冲突,存储也是需要考虑的问题。


 发表评论