Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1232974
  • 博文数量: 210
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3767
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
  • 认证徽章:
个人简介

阿弥陀佛

文章分类

全部博文(210)

文章存档

2018年(7)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(91)

2012年(13)

2011年(1)

发布时间:2013-09-30 10:29:13

由Crawl 得到fetch list,fetch list 里面全部都是链接,nutch采用了生产者-消费者 模型,一个生产者,多个消费者QueueFeeder 读取 fetch list 里面的元素,然后将这些元素放入到多个FetchItemQueue里面去,每个主机对应一个队列,当队列中的元素少的时候,QueueFeeder再将往队列中放。然后由多个FetcherThread线程抓.........【阅读全文】

阅读(2292) | 评论(0) | 转发(0)

发布时间:2013-09-29 18:32:03

刚运行爬虫命令的时候报错。报错:stopping at depth 0 no more urls to fetch解决方法:修改的配置文件没有同步到其他的分布式nutch节点上。nutch-site.xml如下......【阅读全文】

阅读(1050) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

shenyanxxxy2016-01-14 13:19

少林功夫好:楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?

修改源码非一日之功,多阅读开源项目,你说的这个功能用shell + date命令就可以。

回复  |  举报

少林功夫好2016-01-13 15:56

楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?

回复  |  举报

shenyanxxxy2015-05-20 21:25

回复  |  举报
留言热议
请登录后留言。

登录 注册