Chinaunix首页 | 论坛 | 博客
  • 博客访问: 537040
  • 博文数量: 576
  • 博客积分: 40000
  • 博客等级: 大将
  • 技术积分: 5020
  • 用 户 组: 普通用户
  • 注册时间: 2008-10-13 14:47
文章分类

全部博文(576)

文章存档

2011年(1)

2008年(575)

我的朋友

分类:

2008-10-14 14:58:12

如何利用Xerces C++正确处理XML文档中的中文
作者:



1. 背景介绍

Apache的Xerces C++是广大c/c++程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码,故深受广大c/c++程序员的欢迎。

Xerces C++可以到以下网站下载:
1)
2)

2. 问题描述

根据软件开发的要求,作者开发了一个文件特征识别软件,该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces C++作为XML解析器。但发现出了一个严重的问题:被解析的XML文件中不能包含中文,否则中文将不能正确的解析。作者研究了Xerces C++提供的例子程序,发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces C++本身是支持中文的。
XML编码:


   
SAXPrint程序解析结果:

  
为此,作者曾经在IBM的中文网站发现一篇文章并将其所描述的办法应用到程序中。但后来由于机器发生故障,硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子,而且由于当时捡现成的没有用心研究其实现方法,故不得不仔细分析Xerces C++提供的源代码,自己动手解决中文问题。为了今后广大C++程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。如果谁有更好的解决办法不要忘记告诉我。

3. 原因分析

上面的例子里,程序将“文档”两个中文字符解析成了乱码。但DOMPrint程序确能够正确解析。这表明Xerces C++对国际编码肯定是支持的。作者通过对DOMPrint和SAXPrint两个程序的比较跟踪发现问题的根本就是XMLFormatter设置的问题。由于SAX是基于事件的,大多数使用者只是简单的解析XML文档,XMLFormatter的使用比较麻烦。而DOMPrint也是通过标准的输出程序输出的屏幕上的,我们不能直接使用输出结果。
由于XML解析器解析的字符串都是XMLCh格式的,一个字符占用一个字节,而汉字字符确要占用两个字节。故若不做适当的转换,汉字的输出结果就变成乱码了。

4. 解决办法

找到原因就有解决问题的方法了,明显的需要一个把解析出来的XMLCh转换成普通的字符串。这是解析,如果我们需要自己写入XML文档也有一个把普通字符串转换为XMLCh的过程。我把这两个转换过程封装在了一个名为“XMLStringTranslate”的类中。使用如下:
void SAXMagicHandlers::startElement(const XMLCh* const name,AttributeList& attributes)
{
	XMLStringTranslate stringTranslate("gb2312");
	string strName=stringTranslate.translate(name);//得到可包含汉字字符的普通字符串
	string strValue="pdf文档";
	XMLCh * value= stringTranslate.translate(strValue.c_str());//将普通字符串转换成XMLCh串
}
采用XMLStringTranslate后的实际运行结果:

  
特别说明:
由于为了防止内存释放问题,将普通字符串转换成XMLCh *的translate函数返回的是类的一个成员变量,故下面的代码是不允许的:
XMLCh * value1= stringTranslate.translate("测试1");
XMLCh * value2= stringTranslate.translate("测试2");
这样使用的结果是value1和value2的值将是一样的(因为其内存地址根本就是一样的)。正确的使用方法是通过内存拷贝或则其他方法,将value1的值保存起来或则及时使用,否则value2将影响value1的值。

5. 结束语

目前,许多企业已经或者正在采用Xerces C++开发XML的应用系统,相信在应用的过程中会遇到各种问题,欢迎有兴趣的朋友与我联系,共同交流。
--------------------next---------------------

不错,学习了 ( workdog 发表于 2007-9-2 9:58:00)
 
不错
在windows下可以用XMLString::transcode直接转换,但linux下就不行了
用楼主的方法,linux下,在utf-8格式的string和XMLString之间互相转换还是很方便的说。如果用XMLString::transcode转换一个utf-8的sring,返回的字符串长度是0 ( ols 发表于 2006-4-12 10:45:00)
 
XMLString::transcode直接可以转换 ( ddc2004 发表于 2005-8-2 23:11:00)
 
但我奉劝大家,如果只是简单的解析,还是自己写一个吧,我搞了2个多月,来解决,Xerces C++ 支持GB2312,结果,基本上办法都想了,也知道如何转换成XML4C + ICU,结果所遇到的问题,真是 多如牛毛,最后我一狠心自己写了个一个,接口和Xerces C++ 一样,只有几十K,而Xerces C++ + ICU 要上百M,把它搞好要几个月,自己写一个要3天。。。

你说值不值呢?

IBM大笨蛋,100M的东西,不好用。。 ( Mycro 发表于 2005-3-14 23:48:00)
 
VC需要设置VC的包含,和连接路径; ( Mycro 发表于 2005-3-14 23:43:00)
 
XMLStringTranslate类中的头文件

都出现无法打开文件
不知该怎样处理,不知在VC
6.0编译环境下该怎样设置编译环境?请给予指教,谢谢! ( cao_zhixin 发表于 2004-12-22 16:59:00)
 
虽然不是很理解,但来凑凑热闹 ( ikohl 发表于 2004-7-23 15:58:00)
 
作者对XML理解的有些问题。Xerces C++不支持GB2312的中文,但完完全全可以处理UTF-8格式的UNICODE中文。而且UNICODE完全包含了GB2312/BIG5的汉字。为什么不用UTF-8格式呢 ( liguangyi 发表于 2003-7-3 14:23:00)
 
.......................................................

--------------------next---------------------

阅读(628) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~