Java开源Html解析类库-静止的流水-ChinaUnix博客

静止的流水的学习日志

首页　| 　博文目录　| 　关于我

静止的流水

博客访问： 1713280
博文数量： 210
博客积分： 10013
博客等级：上将
技术积分： 2322
用户组：普通用户
注册时间： 2008-09-25 15:56

文章分类

全部博文（210）

php（3）
健康生活（4）
软件工程（3）
C++（68）
用户行为数据统计（2）
英文（0）
自然语言处理（1）
java（39）
开发语言（1）
搜索引擎（4）
工作（3）
算法导论（3）
操作系统（33）

Windows（1）

Linux（31）
数据库（6）
网络技术（3）
生活随笔（35）
OPENMP（0）
MPI（1）
未分配的博文（1）

文章存档

2011年（34）

2010年（121）

2009年（37）

2008年（18）

我的朋友

NekoHTML

NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素，以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI)，后者是Xerces2的实现基础。

JTidy

JTidy 是 HTML Tidy用Java实现的移植版本，提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品，JTidy可以用来清除格式不好和不对的HTM。此外，JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

HotSAX

HotSAX是一个快速，小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

Jericho HTML Parser

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库，可以分析和处理HTML文档的一部分，包括一些通用的服务器端标签，同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。

HTML Parser

HTML Parser实现即时HTML语法分析程序。

Java HTML Parser

HTML Parser提供了一组Tag对象，这些对象可以深入解析一棵可搜索的结构树。

TagSoup

TagSoup是一个Java开发符合SAX的HTML解析器.

HtmlRipper

HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.

Cobra

Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。

HtmlCleaner

HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来进行过滤和匹配。

Java Mozilla Html Parser

Java Mozilla Html Parser能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。

阅读(1968) | 评论(0) | 转发(0) |

上一篇：Linux下Tomcat安装配置以及Windows不能连接服务器Tomcat解决方案

下一篇：搜索引擎存在的主要问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6