字符集相关问题-wangchenxicool-ChinaUnix博客

wangchenxicoolwcx.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wangchenxicool

博客访问： 4310155
博文数量： 776
博客积分： 13014
博客等级：上将
技术积分： 10391
用户组：普通用户
注册时间： 2010-02-22 17:00

文章分类

全部博文（776）

x11（1）
avr-gcc（0）
iptables（3）
hostapd（3）
codes（8）
wcx_bb（11）
mini_httpd（1）
cups（2）
lubuntu（1）
kubuntu（2）
ncurses（1）
openwrt（19）
centos（2）
busybox（2）
shell（1）
protel（2）
android（7）
cubieboard（17）
ok6410（1）
AOI（0）
opencv（3）
onvif（5）
i2c（1）
vmware（1）
arduino（14）
a31（12）
qt（46）
bb-black（3）
pcDuino（24）
lua（3）
mfc（20）
dxf/svg/xml（7）
libevent（3）
linux维护（2）
软件调试（16）

Oops（5）
移植（10）
vim（26）
spi（14）
嵌入式（12）
常用算法（7）
数据库（13）
linux多线程编程（21）
linux网络编程（54）

socket网络编程（13）
硬件（3）
ftp（15）
c/c++（51）
电子（4）
ubuntu（42）
pppd/vpn（19）

pppd移植（1）
linux笔记（40）
工程师手册（18）
dbus（14）
我做过的项目（11）
3G模块（19）
pic（2）
makefile（7）
shell（74）
linux函数（10）
driver（29）
未分配的博文（17）

文章存档

2015年（55）

2014年（43）

2013年（147）

2012年（20）

2011年（82）

2010年（429）

我的朋友

相关博文

字符集相关问题

分类： C/C++

2010-03-26 13:58:15

    字符集目前有两个大的类别：本地字符集和国际字符集，其中每一类别的字符集又有多个
不同的字符编码实例。比如：本地字符集中基本上对于每一个不同的地区和国家就会形成一个
属于自己的字符集（ascii, latin-1, chs等），国际字符集中同样包括多种不同的编码方案
（utf8, utf16等）。
    那么在C/C++程序中如何完成上述字符集之间的转换工作呢？分成两种情况：
    1. 通过const char *cstr使用开发环境中的编辑器输入字符串常量"中国"，如下：
            const char *cstr = "中国";
       这样一来cstr所指向的字符串内存中保存的则是本地字符编码下所形成的字符串，也
       就是说，上面的cstr中存储着chs字符编码集中的字符；
    2. 通过const wchar_t *wstr使用开发环境中的编辑器输入字符串常量"中国"，如下：
            const wchar_t *wstr = L"中国";
       这样一来wstr所指向的字符串内存中保存的则是国际字符编码（在VC++下是ucs2，
       在gcc下是ucs4）下所形成的字符串，也就是说，上面的wstr中存储着utf16字符编
       码集中的字符；
    那么如何将cstr转换成为wstr呢？可以通过C语言中的标准转换函数mbstowcs来完成该工
作，此时需要注意的是如果直接使用mbstowcs进行转换会得到一个错误的结果，并不能成功
的完成转换成为国际宽字符的要求，这是为什么呢？在C/C++语言标准中定义了其运行时的
字符集环境为"C"，也就是ASCII字符集的一个子集，那么mbstowcs在工作时会将cstr中所包
含的字符串看作是ASCII编码的字符，而不认为是一个包含有chs编码的字符串，所以他会将
每一个中文拆成2个ASCII编码进行转换，这样得到的结果就是会形成4个wchar_t的字符组成
的串，那么如何才能够让mbstowcs正常工作呢？在调用mbstowcs进行转换之间必须明确的告
诉mbstowcs目前cstr串中包含的是chs编码的字符串，通过setlocale( LC_ALL, "chs" )函数
调用来完成，需要注意的是这个函数会改变整个应用程序的字符集编码方式，必须要通过重
新调用setlocale( LC_ALL, "C" )函数来还原，这样就可以保证mbstowcs在转换时将cstr中
的串看作是中文串，并且转换成为2个wchar_t字符，而不是4个。

阅读(935) | 评论(0) | 转发(0) |

上一篇：宽字符集（unicode）操作函数

下一篇：printf的格式控制的完整格式

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6