Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2429007
  • 博文数量: 392
  • 博客积分: 7040
  • 博客等级: 少将
  • 技术积分: 4138
  • 用 户 组: 普通用户
  • 注册时间: 2009-06-17 13:03
个人简介

范德萨发而为

文章分类

全部博文(392)

文章存档

2017年(5)

2016年(19)

2015年(34)

2014年(14)

2013年(47)

2012年(40)

2011年(51)

2010年(137)

2009年(45)

分类: LINUX

2012-07-27 17:04:47

http://blog.csdn.net/scottxp/article/details/4323936

众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。
    今天遇到的bug来自于对

解决的办法很简单 ,只需将参数改为:

[java:nogutter] view plaincopy
  1. content = lexer.parseCDATA (STRICT);  

当参数为true时,该方法会自动考虑引号的问题。

查看评论
4楼 ilyysys 2012-03-12 18:15发表 [回复]3楼 wiwipetter 2010-01-09 12:20发表 [回复]不用改代码!STRICT是公共静态变量,赋成false就行了,这不算bug。

不知道博主有没有碰到过这种情况:
解析js里,js的<script>中有注释,注释中含有</X>,
这种情况htmlparser必然出错
形式如下:
<script>
//</a>
</script>Re: scottxp 2010-01-13 01:21发表 [回复]回复 wiwipetter:

确实,当时发帖也没想太多。你说的情况我没注意过,我用htmlparser并不多。2楼 scottxp 2010-01-03 18:42发表 [回复]已经说了,把 content = lexer.parseCDATA (!STRICT); 中的“!”去掉就可以饿了1楼 kingboy_software 2009-12-31 00:11发表 [回复] [引用] [举报]晕啊!!!!说得不详细啊!这问题该怎么解决??请教!!
阅读(1280) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~