[原]xml格式的汉等字符解析-帅得不敢出门-ChinaUnix博客

帅得不敢出门stupidpig.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

帅得不敢出门

博客访问： 4550754
博文数量： 356
博客积分： 10458
博客等级：上将
技术积分： 4734
用户组：普通用户
注册时间： 2008-03-24 14:59

文章分类

全部博文（356）

小程序（6）
python（2）
windows（2）
图像处理（2）
人工智能（18）
ACM（3）
android（13）
vim（3）
Qt（13）
ARM-LINUX（33）
胡写一通的软件（2）
个人日记（2）
Csharp（1）
网络技术（4）
娱乐（1）
VC/MFC（83）

VC常见错误与技巧（15）

其他（12）

文件相关（8）

窗体技巧（16）

网络编程（9）

控件相关（12）

数据库（1）

字符操作（10）
C++/C（111）

其他（0）

库函数源代码（9）

一般知识与技巧（22）

指针与内存相关（22）

试题.面试题（15）

网络（1）

模式-模板-STL（8）

易错与解误区（8）

书评（8）

数据结构与算法（6）
java（2）
程序人生（7）
汇编（2）
linux（46）
未分配的博文（0）

文章存档

2020年（17）

2019年（9）

2018年（26）

2017年（5）

2016年（11）

2015年（20）

2014年（2）

2013年（17）

2012年（15）

2011年（4）

2010年（7）

2009年（14）

2008年（209）

我的朋友

相关博文

[原]xml格式的汉等字符解析

分类： C/C++

2009-08-22 17:53:46

作者：帅得不敢出门 C++爱好者灌水天堂群 3503799 转载请保留此信息

由于要解析fb2电子书文本，这方面似乎俄文资料比较多啊，没办法，摸着石头过河吧
利用网上的一个软件any2fb2把一段文本转换成fb2，用editplus直接打开fb2
文本内容：
汉 fb2 测试

fb2内容：

汉 fb2 测试

有发现，小样，原来你穿了fb2的马甲，骨子里却是xml的种。
xml解析网上资料太多了，不感冒，现在说下这里面的"&#"开头，中间为数字，';'号结尾的东东吧。比如汉其实就是'汉'，
这些字符浏览器可以自动转换的，现在我们来实现这个转换。
    开头与结尾的字符不管它，取中间数字部分，网上有人说这些是utf-8的编码，不好意思，至少在这里是不正确的，
比如27721，这其实是十进制的，而不是十六进制，把它转成十六进制为0x6c49，正是'汉'的ucs2编码，其utf-8编码为E6B189。
    接下来把它转换成ascii
WCHAR * wszUcs2 = L"\x6c49";
int len = WideCharToMultiByte(CP_ACP, 0, wszUcs2, -1, NULL, 0, NULL, NULL);
char *szGBK=new char[len + 1];
szGBK[len] = '\0';
WideCharToMultiByte (CP_ACP, 0, wszUcs2, -1, szGBK, len, NULL,NULL);
MessageBoxA(NULL, szGBK, NULL, MB_OK);//输出'汉'
delete[] szGBK;

阅读(2364) | 评论(0) | 转发(0) |

上一篇：[原]编译tiffToPdf

下一篇：[原]程序员的自我修养：链接、装载与库读后所感

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6