博客首页
注册
建议与交流
排行榜
加入友情链接
推荐
投诉
搜索:
帮助
执着的小雨
xiaoyuonline.cublog.cn
管理博客
发表文章
留言
收藏夹
博客圈
音乐
· Music
相册
· PIC
文章
· C/C++
· 随笔/杂谈
· linux学习
· 笔试-面试总结
· 程序员的思考
· 常识
· 搜索引擎研究
首页
关于作者
姓名:小雨 职业:IT 年龄:25 位置:北京(为奥运加油!) 个性介绍:做最好的自己!
||
<<
>>
||
我的分类
文章列表 - 搜索引擎研究
larbin中的队列结构
<script type="text/JavaScript"> alimama_pid="mm_10005847_128512_138644"; alimama_titlecolor="0000FF"; alimama_descolor ="000000"; alimama_bgcolor="FFFFFF"; alimama_bordercolor="E6E6E6"; alimama_linkcolor="008000"; alimama_bottomcolor="FFFFFF"; alimama_anglesize="8"; alimama_bgpic="10"; alimama_icon="0"; alimama_sizecode="12"; alimama_width=468; alimama_height=60; alimama_type=2; </script> <script src="http://a.alimama.cn/inf.js" type="text/javascript"> </script><br> <br>以前整理过的关于larbin的队列结构给需要的网友:<br><img src="http://blog.chinaunix.net/photo/21158_080805114937.jpg"> <br> <img src="http://blog.chinaunix.net/photo/21158_080805115026.jpg"><br>为什么disk和priority的队列都是成对出现的,是因为可以认为每个site在namedSiteList当中都有一个小的队列来保存它的url,这个url的个数是有个限制的,当超过这个限制的时候就不能再把该site下的url放入,但也不能丢弃,而是放入wait队列。larbin会控制一段时间在disk队列中取url,一段时间在diskWait当中取url。disk和p……
查看全文
发表于:2008-08-05 ┆
阅读(173)
┆
评论(1)
如何在larbin中添加自己的类文件
<DIV> <P style="MARGIN: 8px; LINE-HEIGHT: 150%">请教:<BR>我想在LARBIN里调用 别的C语言的函数不知道怎么办 <BR>http://www.nacona.cn/PARSE.tar.gz 这是个c语言写的 HTML语法分析<BR>在LARBIN里的 FIL.cc 有对HTML分析的部分,但不完善,我想在 LARBIN file.cc的 void html::parseHtml () 函数里调用 PARSE.tar.gz里面的 BitToken.c的 void Bit_BeginToken(BitTokenContext *global_cx) 函数<BR><BR>我在LARBIN FILE.……
查看全文
发表于:2007-07-05 ┆
阅读(1127)
┆
评论(4)
关于larbin的一些问题
<DIV>问题一 <BR><BR># do you want to follow external links<BR><BR>noExternalLinks<BR><BR>这段设置 如果 #noExternalLinks 是不是 就可以爬所有外网 连接 <BR><BR><BR><BR>问题二<BR><BR>是不是 如果larbin 中途 停止(关机) 再运行就从头 开始采集 <BR><BR><BR><BR>问题三 <BR><BR>我想把保存的文件 扩展名变成 .html 是否可以 <BR><BR><BR><BR>问题四 <BR><BR>我想用 GDB &……
查看全文
发表于:2007-07-05 ┆
阅读(746)
┆
评论(1)
Nutch框架图
<DIV>关键词: NUTCH, 框架图</DIV> <DIV><IMG alt="" src="http://p.blog.csdn.net/images/p_blog_csdn_net/hadoopstudy/271341/o_nutch-whole.JPG"> </DIV> <DIV> </DIV> <DIV><IMG alt="" src="http://p.blog.csdn.net/images/p_blog_csdn_net/hadoopstudy/271341/o_nutch-a.JPG"> </DIV> <DIV></DIV><IFRAME id=alimamaifrm style="WIDTH: 468px; HEIGHT: 60px" border=0 name=alimamaifrm marginWidth=0 marginHeight=0 src="http://p.alimama.com/code.php?t=2&i=mm_10005847_128512_138644&w=468&……
查看全文
发表于:2007-06-25 ┆
阅读(697)
┆
评论(0)
在限定网站爬行时,如何提高larbin的速度
<DIV>关键词:限定网站、速度、larbin</DIV> <DIV> 根据需要,有时可能需要限定到一个(些)网站采集网页,如果网站数不是很多,会发现下载的速度慢到无法忍受。原因就是larbin的策略都是从全网爬行的角度考虑的,但可以从以下几个方面修改来提高速度:</DIV> <DIV> 1、将larbin.conf里面的waitDuration设置为1,这里不再考虑polite^_^, 设置为1大多数网站其实还能忍受;</DIV> <DIV> 2、将types.h里面的maxUrlsBySite修改为254;</DIV> <DIV> 3、将main.cc里……
查看全文
发表于:2007-06-04 ┆
阅读(817)
┆
评论(0)
Nutch资料
<script type="text/JavaScript"> var alimama_pid="mm_10005847_128512_138644"; var alimama_titlecolor="0000FF"; var alimama_descolor ="000000"; var alimama_bgcolor="FFFFFF"; var alimama_bordercolor="E6E6E6"; var alimama_linkcolor="008000"; var alimama_bottomcolor="FFFFFF"; var alimama_anglesize="0"; var alimama_bgpic="0"; var alimama_icon="0"; var alimama_sizecode="12"; var alimama_width=468; var alimama_height=60; var alimama_type=2; </script> <script src="http://p.alimama.com/inf.js" type="text/……
查看全文
发表于:2007-05-06 ┆
阅读(749)
┆
评论(0)
探索larbin下载速度下降的原因
<P style="MARGIN-BOTTOM: 0cm">关键词:larbin 速度 实验 活跃网站 diversity </P> <P style="MARGIN-BOTTOM: 0cm">很多人使用larbin都会遇到速度越来越慢的情况,这里公布去年在师弟帮助下测试的一些数据,希望对您有用。<BR></P> <P style="MARGIN-BOTTOM: 0cm">实验目的:验证<FONT face="AR PL ZenKai Uni, serif">larbin</FONT>爬行速度越来越慢的原因</P> <P style="MARGIN-BOTTOM: 0cm">测试时间:<FONT face="AR PL ZenKai Uni, serif">2006-12-15</FONT></P> <P style="MARGIN-BOTTOM: 0cm">测试工具:fj……
查看全文
发表于:2007-04-26 ┆
阅读(1218)
┆
评论(1)
如何限定爬虫(网页采集器)的爬行范围
<FONT size=3><SPAN style="FONT-WEIGHT: bold">关键词:爬虫 限定 IP数据库 </SPAN><BR> 因为资源的原因,可能要求我们对信息的采集范围进行限定,限定的目的可分为:限定到某个(些)域;限定到一些网站列表;限定到一个(些)地区;限定到某种语言类型。<BR> 1、限定到某个(些)域,比如限定到.edu.cn,这种相当简单,只需要判断host的后缀就可以了,相关代码可以查看larbin中src/fetch/checker.cc 中bool filter1 (char *host, char *file) 。<BR> 2、限定到一些网站列表,这跟第一种情况有些类……
查看全文
发表于:2007-04-20 ┆
阅读(938)
┆
评论(0)
解答larbin中poll函数的一点疑问
larbin中的poll函数不仅设置了POLLIN而且设置了POLLOUT,这时我们对POLLOUT可能会有这样的疑问,什么时候POLLOUT会发生的,也就是什么时刻可以发送request呢?<BR> 问这个问题其实是不了解larbin对socket描述字的设置,其实larbin中的socket都是非阻塞的,而对于非阻塞的socket POLLOUT事件是可以立即返回的。一开始不明白为什么不对打开的socket立即写呢,这是个程序的设计问题,larbin这样设计感觉结构非常清晰,功能模块划分的也比较清楚,这些自己还要学习。<BR><BR><B>函数名</B><BR> poll, ppoll - ……
查看全文
发表于:2007-04-17 ┆
阅读(1363)
┆
评论(1)
larbin中URL的去重-Bloom Filter算法
<DIV> 读larbin的源码曾经赞叹它去重方法的设计,虽然有一定的冲突率,但是效率极高,占用的内存非常小,按照larbin的配置,下载6400万网页,使用的内存只有8M。算法特点总结如下:</DIV> <DIV> 1、使用hash;</DIV> <DIV> 2、将每个url映射到一位;</DIV> <DIV> 3、超找的时间是个常数;</DIV> <DIV> 4、不处理冲突。</DIV> <DIV> 今天偶然看到<A href="http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx" target=_blank>焦萌的专栏</A> 详细介绍了……
查看全文
发表于:2007-04-08 ┆
阅读(1538)
┆
评论(1)