[Android]分析 Sax解析Rss xml文件时,遇到的not well-formed错误-figofuture-ChinaUnix博客

01streamfigofuture.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

figofuture

博客访问： 1148802
博文数量： 276
博客积分： 8317
博客等级：少将
技术积分： 2329
用户组：普通用户
注册时间： 2006-09-12 08:17

个人简介

http://ads.buzzcity.net/adpage.php?partnerid=40096

文章分类

全部博文（276）

ubuntu（0）
python（1）
git（0）
IM（1）
router（1）
Gentoo（12）
meego（2）
chromium（4）
psp（1）
android（187）
network（20）
language（1）
GTK（0）
Qt（4）
wxWidgets（0）
FLTK（0）
ecos（0）
misc（2）
english-eachone（2）
Linux（29）
ARM（0）
GNU（0）
FreeBSD（0）
OpenBSD（2）
Embedded System（6）
未分配的博文（1）

文章存档

2013年（1）

2012年（38）

2011年（102）

2010年（85）

2009年（45）

2008年（5）

我的朋友

相关博文

[Android]分析 Sax解析Rss xml文件时,遇到的not well-formed错误

分类： LINUX

2010-08-15 20:34:11

由于sax是触发式的解析xml流, 在手持设备的系统中,应用相当广泛. 在android的应用开发中,自然也偏向于选择sax来解析xml了.
在做一份rss应用中,需要解析baidu.com的rss文件时遇到了not well-formed的错误. 查询了相关资料以及不断debug and log之后, 终于确定了是文件编码遇到了问题.
在此说下我的一些理解, 如有错误请留言指出
首先国内资讯内容提供商使用的rss编码各不相同网易使用gb2312，新浪utf-8, 百度GBK 等等.
1．当URL请求rss.xml后, 通过openStream将返回一个InputStream的字节流对象, 字节流本身是不带编码信息的.
(ps. 为什么说字节流前3个字节,保存的是编码信息? 我通过测试byte[3]的数组,比对UTF8字节数组(-17，-69，-65) 无论是否是UTF8编码均不能匹配上)
2．得到字节流后,通常是可以直接使用InputStream对象去生成一个InputSource对象,来给saxParser或者是XmlReader进行解析的. 默认的情况下, parser解析的InputSource对象是按照utf8编码方式的, 所以,在不做任何处理时, utf8编码的xml文件解析是正常的.
3．当遇到Gbk,或者gb2312编码时,解析ANSI字符是没有问题的,解析到中文时,parser是按照默认的UTF8编码进行解析的, UTF8是每个字符分配3字节, gb2312是分配两字节,必然会造成错误.这时也就报出了not well-formed error.
当时注意到inputSource有个setEncoding的方法,是告诉sarpar使用何种编码去解析这个inputStream, 你可以设置使用GBK去解析这个stream, 但是资源文件的编码都是utf8，而你使用GBK去解析明显是不符合的.
4． SetEncoding是不会将编码进行转换的,仅仅是告诉sarpar如何去解析, 那么遇到xml encoding是gbk gb2312的情况下, 可以使用inputStreamReader的方式,
inputStreamReader(inputStream, charsetName)来指定编码生成字符流.这里显然发生了编码转换.
然后传递这个字符流对象到InputSource对象,这个对象在接受字符流时,是不能setEncoding的, 原因也很简单,字符流是带编码信息的,仍然不放心可以再次setEncoding,(不过是无效的)
5．这样最后只要通过判别文件的编码方式,然后告诉sarpar如何去解析,程序就可以正常执行了.
识别字节流的编码方式可以google查询到很多方法,常用的是通过mozilla提供的一个开源工具来识别的. 目前最新为: cpdetector_1.0.8 可以在SourceForge下载到.
关键代码:

View Code JAVA

XMLContentHandler handler = new XMLContentHandler();
XMLReader reader = null;
InputSource is = null;
try{   
	URL url = new URL(w163);  
	SAXParserFactory parserFactory = SAXParserFactory.newInstance();
	SAXParser saxParser = parserFactory.newSAXParser();
	if(!isUTF8(url)){
		InputStream stream = url.openStream();
		InputStreamReader streamReader = new InputStreamReader(stream,"GBK");	
		is = new InputSource(streamReader);
	}else{
		is = new InputSource(url.openStream());
		is.setEncoding("UTF-8");
	}
	reader = saxParser.getXMLReader();
	reader.setContentHandler(handler);
	}catch(Exception e){
		Log.e(TAG, "Exception updateRss()");
	}
	try {
		reader.parse(is);		
	} catch (IOException e) {
		e.printStackTrace();
	} catch (SAXException e) {
		Log.e(TAG, e.getMessage());
        }

其中isUTF8是通过mozilla的jar包来实现的,具体可以参考cpdetector使用方法的相关文章.

阅读(1187) | 评论(0) | 转发(0) |

上一篇：[linux] thinkpad r61i 上配置触控板点击的灵敏度

下一篇：[psp] 开发环境篇

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6