HTML转换xml-flyrambler-ChinaUnix博客

网事随风flyrambler.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

flyrambler

博客访问： 155835
博文数量： 15
博客积分： 2061
博客等级：大尉
技术积分： 395
用户组：普通用户
注册时间： 2005-08-06 14:25

文章分类

全部博文（15）

ActivexDev（0）
WebDev（5）
eclipse（1）
java（5）
程序设计的艺术（0）
shell程序（0）
嵌入式OS（0）
操作系统（0）
linux（0）
随笔（1）
未分配的博文（3）

文章存档

2020年（1）

2012年（1）

2009年（7）

2008年（6）

我的朋友

相关博文

HTML转换xml

分类：系统运维

2008-07-06 22:38:38

1. Tidy

在 Java 专家 Michael Geisler 为 Builder 澳大利亚写的第一篇文章中，他向读者展示了如何使用 JTidy 将 HTML 文件转换成 XML。

有关 Java 的最重要的事情是有很多扩展标准库可以作为标准平台的一部分，而且在那些库中有对 XML 提供了非常多的支持。然而对于某些特定的需要，在标准库中可能没有直接的支持。

其实你有两个选择：

完全由自己来构建一些东西。这一般很痛苦，而且很费时间。
去“社区”看看是否已经有人遇到了同样的问题（这种情况非常有可能发生），看他是否乐意与你分享他的成果。
对于这个情况，SourceForge 上有一个非常有用的小项目，叫做 JTidy。JTidy 的Web 站点位于。

JTidy 提供 HTML 语法检查和 HTML 的“pretty printing（漂亮打印）”，但是对于你来说，它还允许你将一个 HTML 文件作为输入，然后将其转换成为 XML。JTidy 读取输入文件，然后如果发现有任何不匹配或遗漏的闭合标记，将纠正这些标记，最后输出一个格式良好的 XML 文档。

从下面的示例代码中可以看到，JTidy 的用法相当简单。简单地将 JTidy 实例设置为输出 XML，提供一个输入 URL，输出文件和错误文件，然后启动转换过程就可以了。

import java.net.URL;
import java.io.*;
import org.w3c.tidy.Tidy;

public class TestHTML2XML {
private String url;
private String outFileName;
private String errOutFileName;

public TestHTML2XML(String url, String outFileName, String
errOutFileName) {
this.url = url;
this.outFileName = outFileName;
this.errOutFileName = errOutFileName;
}

public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;

Tidy tidy = new Tidy();

//Tell Tidy to convert HTML to XML
tidy.setXmlOut(true);

try {
//Set file for error messages
tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));
u = new URL(url);

//Create input and output streams
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);

//Convert files
tidy.parse(in, out);

//Clean up
in.close();
out.close();

} catch (IOException e) {
System.out.println(this.toString() + e.toString());
}
}

public static void main(String[] args) {
/*
* Parameters are:
* URL of HTML file
* Filename of output file
* Filename of error file
*/
TestHTML2XML t = new TestHTML2XML(args[0], args[1], args[2]);
t.convert();
}
}

2. nekohtml

    String className = "org.cyberneko.html.parsers.SAXParser";
            XMLReader xmlReader =         XMLReaderFactory.createXMLReader(className);
            SAXReader reader = new SAXReader(xmlReader);
            Document doc = reader.read(strContents);
            Element root = doc.getRootElement();

3. htmlcleaner

InputStream inStr = getMethod.getResponseBodyAsStream();

            /* Set cleaner to get xml from html */
            HtmlCleaner cleaner = new HtmlCleaner(inStr);
            cleaner.clean();
            org.w3c.dom.Document docw3c = cleaner.createDOM();
            doc = (org.dom4j.Document) docw3cToDom4j(docw3c);
            inStr.close();

阅读(2149) | 评论(1) | 转发(0) |

上一篇：DOM4J简介

下一篇：eclipse导入项目

给主人留下些什么吧！~~

chinaunix网友2008-07-06 22:44:34

httpclient+nekohtml 解析HTML import org.cyberneko.html.parsers.DOMParser; import org.xml.sax.InputSource; import org.xml.sax.SAXException; import org.w3c.dom.Document; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; import java.io.InputStream; import java.io.IOException; public class Html2XML { private int connection

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6