Chinaunix首页 | 论坛 | 博客
  • 博客访问: 565598
  • 博文数量: 136
  • 博客积分: 4010
  • 博客等级: 上校
  • 技术积分: 1343
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-19 23:18
文章分类

全部博文(136)

文章存档

2011年(28)

2009年(60)

2008年(48)

我的朋友

分类: Java

2009-01-09 16:13:21

 爬虫工具默认一个被抓取页面的外链接限制在100,修改db.max.outlinks.per.page的值到一个更高的数值(比方说1000)或者设置为没有限制(-1)
file:conf/nutch-default.xml

   db.max.outlinks.per.page
   -1
   The maximum number of outlinks that we'll process for a page.
   If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
   will be processed for a page; otherwise, all outlinks will be processed.
  


 
阅读(599) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~