几个解析XML的例子-qbq-ChinaUnix博客

IT民工窝棚qbq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qbq

博客访问： 30595916
博文数量： 708
博客积分： 12163
博客等级：上将
技术积分： 8240
用户组：普通用户
注册时间： 2007-12-04 20:59

文章分类

全部博文（708）

Highcharts（1）
Android（3）
多浏览器（2）
游记（1）
装修（1）
手机（2）
电影（1）
英语（2）
音乐（2）

国产（1）

欧美（1）
图片（1）
日本（6）
知识宝库（41）
文学收藏（6）
马尔代夫（2）
体育（6）
原创空间（1）
技术收藏（597）

SEO（1）

CSS3（5）

TestNG（4）

HTML5（2）

iBatis（3）

URLRewrite（1）

WebService（1）

WebServer（12）

PHP（8）

OGNL（1）

AS2（2）

Multimedia（0）

Flex AS3（29）

面试（9）

Commet（1）

Ivy（2）

Bat（8）

Maven（18）

CSS（7）

Ext（9）

Spring问题集（4）

Word（1）

JFreeChart（2）

Groovy on Grails（14）

Python（1）

Portlet（3）

amCharts（4）

CSharp.NET（3）

Tools（1）

S2Dao（8）

HSQL（9）

taglib（28）

Source Safe（3）

JSTL（6）

EL（2）

Seasar-SAStruts（3）

Prototype（0）

JQuery（3）

DWR（7）

AJAX（14）

Guice（13）

Digit（2）

Notebook（4）

Log4J（8）

Servlet（2）

JSP（4）

Eclipse（12）

VB.NET（3）

DotNet（3）

JavaScript（63）

Thinking In Soft（10）

Framework（11）

English（0）

Struts2（14）

Struts（38）

Hibernate（10）

Spring（30）

HTML（14）

Web（5）

MYSQL（9）

SQLSERVER（1）

ORACLE（2）

SQL（3）

数据库（0）

DATABASE（0）

Windows（8）

JAVA（67）

Software（1）

Hardware（3）

OpenSource（2）

Microsoft（0）

Excel（4）

DIY（5）

Linux（4）
关于工作（8）
个人日记（7）
未分配的博文（18）

推荐博文

相关博文

几个解析XML的例子

分类： Java

2008-03-10 14:01:42

例一：

package simpleTest;

import org.xml.sax.Attributes;

import org.xml.sax.SAXException;

import org.xml.sax.Locator;

import org.xml.sax.ContentHandler;

import org.xml.sax.InputSource;

import org.xml.sax.helpers.DefaultHandler;

import java.io.IOException;

import javax.xml.parsers.SAXParser;

import javax.xml.parsers.SAXParserFactory;

class TestSAX extends DefaultHandler

{

private StringBuffer buf;

public TestSAX()

{

super();

}

public void setDocumentLocator(Locator locator)

{

}

public void startDocument() throws SAXException

{

buf=new StringBuffer();

System.out.println("*******开始解析文档*******");

}

public void endDocument() throws SAXException

{

System.out.println("*******文档解析结束*******");

}

public void startPrefixMapping( String prefix, String uri )

{

System.out.println(" 前缀映射: " + prefix +" 开始!"+ " 它的URI是:" + uri);

}

public void endPrefixMapping( String prefix )

{

System.out.println(" 前缀映射: "+prefix+" 结束!");

}

public void processingInstruction( String target, String instruction )

throws SAXException

{

}

public void ignorableWhitespace( char[] chars, int start, int length ) throws SAXException

{

}

public void skippedEntity( String name ) throws SAXException

{

}

public void startElement(String namespaceURI,String localName,String qName,Attributes atts)

{

System.out.println("*******开始解析元素*******");

System.out.println("元素名"+qName);

for(int i=0;i
{

System.out.println("元素名"+atts.getLocalName(i)+"属性值"+atts.getValue(i));

}

}

public void endElement(String namespaceURI,String localName,String fullName )throws SAXException

{

System.out.println("******元素解析结束********");

}

public void characters( char[] chars, int start, int length )throws SAXException

{

//将元素内容累加到StringBuffer中

buf.append(chars,start,length);

}

public static void main(String args[])

{

try{

SAXParserFactory sf = SAXParserFactory.newInstance();

SAXParser sp = sf.newSAXParser();

TestSAX testsax=new TestSAX();

sp.parse(new InputSource("D:\test\simpleTest\classes\simpleTest\test.xml"),testsax);

}catch(IOException e)

{

e.printStackTrace();

}catch(SAXException e)

{

e.printStackTrace();

}catch(Exception e)

{

e.printStackTrace();

}

}

}

XML文件如下:

王小明

信息学院

6258113

男,1955年生,博士，95年调入海南大学

例二：

XML文档样本：

 
 
 Bob  
 New York

代码:

package xmltest; 
import javax.xml.parsers.*; 
import org.xml.sax.*; 
import org.xml.sax.helpers.*; 
import java.io.*; 
public class SaxTest extends DefaultHandler { 
// 重载DefaultHandler类的方法 
// 以拦截SAX事件通知。 
// 
// 关于所有有效事件，见org.xml.sax.ContentHandler 
// 
public void startDocument( ) throws SAXException { 
System.out.println( "SAX Event: START DOCUMENT" ); 
} 
public void endDocument( ) throws SAXException { 
System.out.println( "SAX Event: END DOCUMENT" ); 
} 
public void startElement( String namespaceURI, 
String localName, 
String qName, 
Attributes attr ) throws SAXException { 
System.out.println( "SAX Event: START ELEMENT[ " + 
localName + " ]" ); 
// 如果有属性，我们也一并打印出来．．． 
for ( int i = 0; i < attr.getLength(); i++ ){ 
System.out.println( " ATTRIBUTE: " + 
attr.getLocalName(i) + 
" VALUE: " + 
attr.getValue(i) ); 
} 
} 
public void endElement( String namespaceURI, 
String localName, 
String qName ) throws SAXException { 
System.out.println( "SAX Event: END ELEMENT[ " + 
localName + " ]" ); 
} 
public void characters( char[] ch, int start, int length ) 
throws SAXException { 
System.out.print( "SAX Event: CHARACTERS[ " ); 
try { 
OutputStreamWriter outw = new OutputStreamWriter(System.out); 
outw.write( ch, start,length ); 
outw.flush(); 
} catch (Exception e) { 
e.printStackTrace(); 
} 
System.out.println( " )" ); 
}
public static void main( String[] argv ){ 
System.out.println( "Example1 SAX Events:" ); 
try { 
// SAXParserFactory spFactory = SAXParserFactory.newInstance(); 
// SAXParser sParser = spFactory.newSAXParser(); 
// 建立SAX 2解析器．．． 
XMLReader xr = XMLReaderFactory.createXMLReader
("org.apache.xerces.parsers.SAXParser"); 
// 安装ContentHandler．．． 
xr.setContentHandler( new SaxTest() ); 
// 解析文件．．． 
xr.parse( new InputSource( 
new FileReader( "exampleA.xml" )) ); 
}catch ( Exception e ) { 
e.printStackTrace(); 
} 
} 
}

当前SAX API有两个版本。第二版中的类名和方法名与第一版都有出入，但是代码的结构是一样的。
SAX是一套API，它不是一个解析器，所以这个代码在XML解析器中是通用的。要让示例跑起来，你将需要一个支持SAX v2的XML解析器。我用Apache的Xerces解析器.代码如下
// 建立SAX 2解析器．．．
XMLReader xr = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");

// 安装ContentHandler．．．
xr.setContentHandler( new SaxTest() );
SAX API 的说明书通俗易读。它包含了很多的详细内容。而使用SAX API的主要任务就是创建一个实现ContentHandler接口，一个供XML 解析器调用以将分析XML文档时所发生的SAX事件分发给处理程序的回调接口。

方便起见，SAX API也提供了一个已经实现了ContentHandler接口的DefaultHandler适配器类。

一但实现了ContentHandler或者扩展了DefaultHandler类，你只需直接将XML解析器解析一个特定的文档即可。

我们的第一个例子扩展DefaultHandler将每个SAX事件打印到控制台。这将给你一个初步的映象，以说明什么SAX事件将会发生及以怎样的顺序发生。

下面介绍一下其它操作XML的API
stax(simple stream api for xml)作为jsr已经出现几年时间了，可能不如sax,dom(及其他基于其上的工具包比如jdom,jaxp,etc)为众人所知。可能也是因为最近xfire的火热导致它的知名度有所提升吧。（题外话，好象有不少知识点一直都是默默无闻的，只有随着某项技术的流行才突然变的为人所知道了，比如ThreadLocal本来我们一直没有接触，很多人可能一直都不知道它的存在，但随着它在spring ,hibernate这些流行的技术里的灵巧的应用，一下子就被很多人谈及及应用了。可见我们的水平还是属于跟在老外屁股后面跑的水平）。
通过和dom,sax这两种大家熟知的xml解析方式的比较，可以容易的看出它的特点。
dom通过把整个tree 文档读入内存进行操作，可以随意对文档进行操作，非常灵活。但缺点是对内存的资源耗费比较大。
sax不同于dom把整个文档读入内存的方式，它是直接对 xml文件进行操作。速度快，基本上不占用什么内存资源。缺点看看它的名字就知道了(simple api for xml),基于event的方式（这点和stax类似），但是是通过callback的方式把对xml的遍历权交给sax parser了。这样导致我们不能灵活控制对xml文件的访问。

stax通过stream的方式来解决sax,dom各自的缺点，同时具有他们大部分的优点（我想底层实现是不是通过直接操作文件流的方式，还没有看它的实现的src，不敢乱说）。stax主要有两中粒度不同的操作方式，一种基于event, 另一种更底层的实现基于cursor。初一看实现方式有点象sax,因为都是基于event的。但是sax把访问控制权交给parser(通过callback))了，我们很难控制iterat过程。stax允许我们自己控制iterat.
所以stax的优点如下：基于stream的方式，不象dom耗费内存资源。又可以自己控制对xml的iterat，不象sax把控制权交给parser).还有一个优点就是可以在iterat的过程中随时cancel。虽然sax 也可以通过 throw saxexception的方式中断iterat过程，但毕竟不是一中优美的解决方案。当然stax的还提供了以stream的方式进行write xml的操作。

具体的stax应用可以看ibm的系列教程文章，比较老了了点。http://www-128.ibm.com/developerworks/xml/library/x-tipstx/

具体实现，除了bea的一个ri实现外，不知道还有其他的实现没有（stax jsr好象最早由bea提出来）？

个人感觉stax的应用还是有些麻烦，期待（或则是不是已经有了？）能有更高层次的封装（类似于jdom,jaxp实现之类的）。

例三：

使用SAX解析XML

一、前言

用Java解析XML文档，最常用的有两种方法：使用基于事件的XML简单API（Simple API for XML）称为SAX和基于树和节点的文档对象模型（Document Object Module）称为DOM。Sun公司提供了Java API for XML Parsing（JAXP）接口来使用SAX和DOM，通过JAXP，我们可以使用任何与JAXP兼容的XML解析器。

JAXP接口包含了三个包：

（1） org.w3c.dom W3C推荐的用于XML标准规划文档对象模型的接口。

（2） org.xml.sax 用于对XML进行语法分析的事件驱动的XML简单API（SAX）

（3） javax.xml.parsers解析器工厂工具，程序员获得并配置特殊的特殊语法分析器。

二、前提

DOM编程不要其它的依赖包，因为JDK里自带的JDK里含有的上面提到的org.w3c.dom、org.xml.sax 和javax.xml.parsers包就可以满意条件了。

三、使用SAX解析XML文档

SAX是基于事件的简单API，同样的我们也是用一个最简单的例子来看看SAX是如何解析XML的

先来看看我们要解析的XML代码吧

rjzjh

jjjjjj

简单的不能再简单了。但是该有的都有了，根元素、属性、子节点。好了，能反应问题就行了，下面来看看解析这个XML文件的Java代码吧！

1 public class SaxParse {

2 public SaxParse(){

3 SAXParserFactory saxfac=SAXParserFactory.newInstance();

4 try {

5 SAXParser saxparser=saxfac.newSAXParser();

6 InputStream is=new FileInputStream("bin/library.xml");

7 saxparser.parse(is,new MySAXHandler());

8 } catch (ParserConfigurationException e) {

9 e.printStackTrace();

10 } catch (SAXException e) {

11 e.printStackTrace();

12 } catch (FileNotFoundException e) {

13 e.printStackTrace();

14 } catch (IOException e) {

15 e.printStackTrace();

16 }

17 }

18 public static void main(String[] args) {

19 new SaxParse();

20 }

21 }

这段代码比较短，因为SAX是事件驱动的，它的大部分实现在在另一个Java文件中，先别管另一个文件，我们来一个个地分析吧！

（1）得到SAX解析器的工厂实例

3 SAXParserFactory saxfac=SAXParserFactory.newInstance();

这是一个javax.xml.parsers.SAXParserFactory类的实例

（2）从SAX工厂实例中获得SAX解析器

5 SAXParser saxparser=saxfac.newSAXParser();

使用javax.xml.parsers.SAXParserFactory工厂的newSAXParser()方法

（3）把要解析的XML文档转化为输入流，以便DOM解析器解析它

6 InputStream is=new FileInputStream("bin/library.xml");

InputStream是一个接口。

（4）解析XML文档

7 saxparser.parse(is,new MySAXHandler());

后面就不用看了，都是些没用的代码（相对而言），够简单的吧！

注意了，我们新建了一个实例new MySAXHandler()这个实例里面又有什么东西呢？

这个实例就是SAX的精华所在。我们使用SAX解析器时，必须实现内容处理器ContentHandler接口中的一些回调方法，然而我们不须要全部地实现这些方法，还好，我们有org.xml.sax.helpers.DefaultHandler类，看它的类申明：

public class DefaultHandler

implements EntityResolver, DTDHandler, ContentHandler, ErrorHandler

实现了这么多接口啊，其它的先不管了，至少它实现了ContentHandler这一接口。

好了，看看这个类有些什么吧？下面是它的Java代码！

public class MySAXHandler extends DefaultHandler {

boolean hasAttribute=false;

Attributes attributes=null;

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#startDocument()

public void startDocument() throws SAXException {

System.out.println("文档开始打印了");

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#endDocument()

public void endDocument() throws SAXException {

System.out.println("文档打印结束了");

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#startElement(java.lang.String, java.lang.String, java.lang.String, org.xml.sax.Attributes)

public void startElement(String uri, String localName, String qName,

Attributes attributes) throws SAXException {

if(qName.equals("books")){

return;

}

if(qName.equals("book")){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

if(attributes.getLength()>0){

this.attributes=attributes;

this.hasAttribute=true;

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#endElement(java.lang.String, java.lang.String, java.lang.String)

public void endElement(String uri, String localName, String qName)

throws SAXException {

if(hasAttribute&&(attributes!=null)){

for(int i=0;i

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

/* （非 Javadoc）

* @see org.xml.sax.helpers.DefaultHandler#characters(char[], int, int)

public void characters(char[] ch, int start, int length)

throws SAXException {

System.out.println(new String(ch,start,length));

}

不要看它一大堆，我一一分解给大家看。我们说SAX是基于事件的API，我们这个类实到了ContentHandler接口中的如下方法：

（1）startDocument() 用于处理文档解析开始事件

public void startDocument() throws SAXException {

System.out.println("文档开始打印了");

}

（2）endDocument() 用于处理文档解析结束事件

public void endDocument() throws SAXException {

System.out.println("文档打印结束了");

}

（3）startElement 用于处理元素开始事件

public void startElement(String uri, String localName, String qName,

Attributes attributes) throws SAXException {

if(qName.equals("books")){

return;

}

if(qName.equals("book")){

System.out.println(attributes.getQName(0)+attributes.getValue(0));

}

if(attributes.getLength()>0){

this.attributes=attributes;

this.hasAttribute=true;

}

第二个参数String qName表示这个元素的名字，如：

根节点它的

阅读(1699) | 评论(0) | 转发(0) |

上一篇：临时文件处理

下一篇：为你的Java应用程序选择合适的XML解析技术

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6