Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1863589
  • 博文数量: 211
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3794
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
个人简介

阿弥陀佛

文章分类

全部博文(211)

文章存档

2020年(2)

2019年(3)

2018年(5)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(90)

2012年(13)

分类: 服务器与存储

2013-09-29 18:32:03

刚运行爬虫命令的时候报错。
报错:stopping at depth 0 no more urls to fetch
解决方法:修改的配置文件没有同步到其他的分布式nutch节点上。
nutch-site.xml如下



plugin.includes
protocol-file|urlfilter-regex|parse-(text|html|msword|pdf)|index-basic|query-(basic|site|url)


file.content.limit -1


Remember we have to crawl the local file system. Hence we have to modify the
entries as follows
##-^(file|ftp|mailto):
-\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png|PNG)$
-[?*!@=]
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+.*
urls文件

修改crawl-urlfilter.txt

#skip http:, ftp:, & mailto: urls

-^(http|ftp|mailto):

#skip image and other suffixes we can't yet parse

#skip URLs containing certain characters as probable queries, etc.

#accept hosts in MY.DOMAIN.NAME

#accecpt anything else

file://c:/resumes/word

file://c:/resumes/pdf

#file:///data/readings/semanticweb/


阅读(1890) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~