2008年(909)
分类:
2008-05-06 21:47:52
下载本文示例代码
1. 背景介绍
Apache的Xerces C 是广大c/c 程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码,故深受广大c/c 程序员的欢迎。
Xerces C 可以到以下网站下载:
1)
2)
2.
问题描述
根据软件开发的要求,作者开发了一个文件特征识别软件,该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces
C 作为XML解析器。但发现出了一个严重的问题:被解析的XML文件中不能包含中文,否则中文将不能正确的解析。作者研究了Xerces C 提供的例子程序,发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces
C 本身是支持中文的。
XML编码:
SAXPrint程序解析结果:
为此,作者曾经在IBM的中文网站发现一篇文章《如何利用Xerces-C 解析包含中文字符的XML文档》并将其所描述的办法应用到程序中。但后来由于机器发生故障,硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子,而且由于当时捡现成的没有用心研究其实现方法,故不得不仔细分析Xerces C 提供的源代码,自己动手解决中文问题。为了今后广大C 程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。如果谁有更好的解决办法不要忘记告诉我。
void SAXMagicHandlers::startElement(const XMLCh* const name,AttributeList& attributes) { XMLStringTranslate stringTranslate("gb2312"); string strName=stringTranslate.translate(name);//得到可包含汉字字符的普通字符串 string strValue="pdf文档"; XMLCh * value= stringTranslate.translate(strValue.c_str());//将普通字符串转换成XMLCh串 }采用XMLStringTranslate后的实际运行结果:
特别说明:
XMLCh * value1= stringTranslate.translate("测试1"); XMLCh * value2= stringTranslate.translate("测试2");这样使用的结果是value1和value2的值将是一样的(因为其内存地址根本就是一样的)。正确的使用方法是通过内存拷贝或则其他方法,将value1的值保存起来或则及时使用,否则value2将影响value1的值。