博客首页 注册 建议与交流 排行榜 加入友情链接
推荐 投诉 搜索: 帮助

执着的小雨

  xiaoyuonline.cublog.cn

关于作者
姓名:小雨
职业:IT
年龄:25
位置:北京(为奥运加油!)
个性介绍:做最好的自己!
|| << >> ||
我的分类


我的留言 [管理]
网友: 14334649 时间:2008-08-11 15:00:05 IP地址:121.15.171.★
非常感谢小雨!

网友: 本站网友 时间:2008-08-05 13:30:31 IP地址:202.38.73.★
你好,请问specbuf ,savespecbuf  ,    dynamicspecbuf  , defaultspecbuf 各有什么作用   ,为所么我跟踪main函数没用到这几个文件啊,
还有就是url的所有队列都是存在内存里的吗?
谢谢!

Blog作者的回复:
具体代码忘记了!
Url队列分为内存和文件队列两部分,应该有一个PersistFifo的类文件,还比较有意思。


网友: 14334649 时间:2008-07-30 16:55:29 IP地址:121.15.171.★
小雨你好
请教你一个larbin重新启动的问题
我在option.h中设置了#define RELOAD #define SIMPLE_SAVE
但是使用./larbin -scratch重新启动时会出现trouble while creating dir: File exists,请问这是怎么回事?save文件夹保存的就是之前爬过的网页,我试着重新命名了一下,但labin仍然会从头开始爬。怎么才能重新启动呢,期待你的答复...

Blog作者的回复:
larbin  Reload的实现其实是把hash表来保存,以及它的文件队列来实现的,如果你抓取的时间过短的话hash表不会被保存到文件上(有个数量的限制,只有达到那个抓取量,才会把内存中的hash表同步到文件一次)。而文件队列如果只有一个文件的话,以前试过也会有问题。具体可以看代码。


网友: 本站网友 时间:2008-07-26 09:43:29 IP地址:202.38.73.★
你好,想请教一个关于larbin的问题。
/** URLs for the sequencer with high priority */
  static SyncFifo<url> *URLsPriority;
  static SyncFifo<url> *URLsPriorityWait;            
为什么要两个队列????  larbin中url队列结构到底是什么样的?

Blog作者的回复:
这个可以先看下我在文章中的回复!回答的依据也是很早以前的一点文档了,具体的可以看源码!谢谢关注!


网友: luowei 时间:2008-05-28 21:16:12 IP地址:61.172.89.★
小雨大哥,如果你知道的话就指点一下我吧,我搞不定呀,谢谢小雨大哥了

网友: luowei 时间:2008-05-18 19:56:52 IP地址:61.172.89.★
小雨你好,好久没研究larbin了,近来又有空了,上次问你的问题你还没回答我呢?
poll, ppoll 
#include <sys/poll.h>
poll 函数在window下面用什么代替,还有pollfd这个结构体怎么代替?我找了好久都没有能解决,看了window上面好像有个select函数,感觉改起来很麻烦,window上面是不是有和poll.h类似的头文件呀?这样我移过来就简单了,谢谢

网友: fera 时间:2008-01-18 17:26:46 IP地址:202.96.60.★
博主显然把c/c++和vc混为一谈了

Blog作者的回复:
这里的分类不是很详细,随意为之~~~~


网友: luowei 时间:2008-01-03 19:50:31 IP地址:61.172.90.★
上面的问题第一个问题是没有在下载文件,第三个问题一下还弄不好,等我理清了,再请教你,现在又有一个问题
poll, ppoll 
#include <sys/poll.h>
poll 函数在window下面用什么代替,还有pollfd这个结构体怎么代替?

网友: luowei 时间:2007-12-24 14:11:23 IP地址:61.172.81.★
小雨你好,再请教你几个问题:
1,当我把设置为此项时#define DEFAULT_OUTPUT  在defaultuseroutput.cc这个文件里面的loaded函数里面加了一输出语句,但是为什么它没有输出,好像loaded函数根本没执行
2,我已经找到了windows下面的adns 正在把larbin移到windows上面来,加入
MFC,这样会不会影响到larbin的性能,是不是在linux下面会快一些呢?
3,我加入了一个IP库,可以只搜索某地区的网页,在filter1函数里面加了相关的代码,通过adns解析可以得到IP,后面什么都没有了,代码应该加在什么位置更加合适?

Blog作者的回复:
1、这个能把代码帖给我吗?另外,你可以观察一下网络的情况或者文件队列的变化来看一下是否在下载网页。
2、性能应该会降低。具体还是你移植之后用数据对比一下吧。
3、这个我没有看明白,能详细表述一下吗?


网友: helping 时间:2007-12-11 09:49:38 IP地址:203.134.244.★
小雨你好,再请教两个问题,希望能抽空帮忙指导一下
 1.larbin对带宽的占用情况如何?例如一个10M的带宽,一个larbin能占用多少?可以控制么?
 2.一台机器可不可以同时运行多个larbin,让他们共同抓取同一个网站的时候可不可以做到同步(不重复抓取)?这样做会不会比只运行一个larbin快?
再具体一点,根据您的经验,抓取100M个页面最快大概要多长时间?
 十分感谢!   

Blog作者的回复:
1、larbin的速度跟你的网络连接情况肯定密切相关。假设1s下载100个网页,一个4kB大小,那么网速就是100*4k*8=3.125M。如果你想控制的话,可以控制每秒下载的网页数。可以看一下配置文件。
2、可以同时运行多个larbin在一台机器上,但是要保证配置的端口不一样。协作抓取可以考虑采用交叉抓取的方式来解决。如果设计的好肯定要比一台机器快了。。。


 发表评论