Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4212479
  • 博文数量: 291
  • 博客积分: 8003
  • 博客等级: 大校
  • 技术积分: 4275
  • 用 户 组: 普通用户
  • 注册时间: 2010-10-30 18:28
文章分类

全部博文(291)

文章存档

2017年(1)

2013年(47)

2012年(115)

2011年(121)

2010年(7)

分类: Java

2012-07-22 12:32:37

前天在用自己在lucene基础上做的搜索引擎抓取网站时,当抓取到11034个url时报jsoup里“java.lang.OutOfMemoryError: Java heap space”。
1.我首先怀疑是自己的代码使用了过多的静态变量,有很多循环里的变量用完了没有赋予null,检查了一下,都给赋予null,使用-Xms256m -Xmx1024m 给java虚拟机增加到1GB最大内存,又运行几次,结果每次都是失败,最后增加到1.5GB,还是不行。
2.我开始怀疑jsoup里有问题,于是打开它源代码看了半天也没有看明白
2.最后检查发现url中有一个url是一个下载文件,大小为260M,把这个url屏蔽了就好了。
看来搜索引擎得增加文件后缀过滤。不过这不上根本的解决办法,最好是修改jsoup增加判断文件类型和大小判断
阅读(4111) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~