htmlparser 处理标签的一个bug-jiangwen127-ChinaUnix博客

EricLiseo2register.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

jiangwen127

博客访问： 2498112
博文数量： 392
博客积分： 7040
博客等级：少将
技术积分： 4138
用户组：普通用户
注册时间： 2009-06-17 13:03

个人简介

范德萨发而为

文章分类

全部博文（392）

nosql（1）
c/c++（7）
machine lea（67）
设计模式（1）
web架构（35）
关系型database（23）
distributed（11）
fuckingwindows（1）
SE（24）
life（9）
berkeleyDB（4）
beauty of math（3）
Java_study（11）
algorithm（77）
kernel（16）
hadoop（13）
programming（8）
network（9）
linux operation（14）
bash（12）
reading（5）
STL using（8）
intern（0）
job_hunter（29）
未分配的博文（4）

文章存档

2017年（5）

2016年（19）

2015年（34）

2014年（14）

2013年（47）

2012年（40）

2011年（51）

2010年（137）

2009年（45）

我的朋友

相关博文

htmlparser 处理标签的一个bug

分类： LINUX

2012-07-27 17:04:47

http://blog.csdn.net/scottxp/article/details/4323936
众所周知，Htmlparser本身有一些小bug，而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点，主要是扩展性强，其利用的设计模式值得学习。由于时间的关系，现在项目还是使用Htmlparser，以后有时间会对nekohtml进行研究。
    今天遇到的bug来自于对。
解决的办法很简单 ，只需将参数改为：
[java:nogutter]view plaincopy
content = lexer.parseCDATA (STRICT);  
当参数为true时，该方法会自动考虑引号的问题。
分享到： 
上一篇：真·周工作总结 二
下一篇：网页信息抽取阶段性成果

查看评论

4楼 ilyysys 2012-03-12 18:15发表 [回复]3楼 wiwipetter 2010-01-09 12:20发表 [回复]不用改代码！STRICT是公共静态变量，赋成false就行了，这不算bug。

不知道博主有没有碰到过这种情况：
解析js里，js的<script>中有注释，注释中含有</X>,
这种情况htmlparser必然出错
形式如下：
<script>
//</a>
</script>Re: scottxp 2010-01-13 01:21发表 [回复]回复 wiwipetter：

确实，当时发帖也没想太多。你说的情况我没注意过，我用htmlparser并不多。2楼 scottxp 2010-01-03 18:42发表 [回复]已经说了，把 content = lexer.parseCDATA (!STRICT); 中的“!”去掉就可以饿了1楼 kingboy_software 2009-12-31 00:11发表 [回复] [引用] [举报]晕啊！！！！说得不详细啊！这问题该怎么解决？？请教！！

阅读(1346) | 评论(0) | 转发(0) |

上一篇：epoll使用详解（精髓）

下一篇：Add Microsoft SQL JDBC driver to Maven

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6