Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4460648
  • 博文数量: 356
  • 博客积分: 10458
  • 博客等级: 上将
  • 技术积分: 4734
  • 用 户 组: 普通用户
  • 注册时间: 2008-03-24 14:59
文章分类

全部博文(356)

文章存档

2020年(17)

2019年(9)

2018年(26)

2017年(5)

2016年(11)

2015年(20)

2014年(2)

2013年(17)

2012年(15)

2011年(4)

2010年(7)

2009年(14)

2008年(209)

分类: C/C++

2009-08-22 17:53:46

 作者:帅得不敢出门   C++爱好者灌水天堂群 3503799   转载请保留此信息    
由于要解析fb2电子书文本,这方面似乎俄文资料比较多啊,没办法,摸着石头过河吧
利用网上的一个软件any2fb2把一段文本转换成fb2,用editplus直接打开fb2
文本内容:
汉 fb2 测试
fb2内容:


  

汉 fb2 测试


  

 
有发现,小样,原来你穿了fb2的马甲,骨子里却是xml的种。
xml解析网上资料太多了,不感冒,现在说下这里面的"&#"开头,中间为数字,';'号结尾的东东吧。比如汉其实就是'汉',
这些字符浏览器可以自动转换的,现在我们来实现这个转换。  
    开头与结尾的字符不管它,取中间数字部分,网上有人说这些是utf-8的编码,不好意思,至少在这里是不正确的,
比如27721,这其实是十进制的,而不是十六进制,把它转成十六进制为0x6c49,正是'汉'的ucs2编码,其utf-8编码为E6B189。
    接下来把它转换成ascii
 WCHAR * wszUcs2 = L"\x6c49";
 int len = WideCharToMultiByte(CP_ACP, 0, wszUcs2, -1, NULL, 0, NULL, NULL);
 char *szGBK=new char[len + 1];
 szGBK[len] = '\0';
 WideCharToMultiByte (CP_ACP, 0, wszUcs2, -1, szGBK, len, NULL,NULL);
 MessageBoxA(NULL, szGBK, NULL, MB_OK);//输出'汉'
 delete[] szGBK;
 
阅读(2252) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~