宽字符的学习-Radish_Hu-ChinaUnix博客

Alvin Hooradishhu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Radish_Hu

博客访问： 201268
博文数量： 51
博客积分： 1435
博客等级：上尉
技术积分： 590
用户组：普通用户
注册时间： 2011-03-05 18:33

文章分类

全部博文（51）

c#（1）
LAMP（2）
数据库（1）
数据结构与算法（1）
面试相关（3）
学习笔记（0）
Unix&Linux（16）
c/c++（19）
网路杂文（5）
网络编程（3）
随行（0）
未分配的博文（0）

文章存档

2012年（17）

2011年（34）

我的朋友

相关博文

宽字符的学习

分类： C/C++

2011-05-15 00:14:24

转自http://blog.510769.com/Article.aspx?oid=1343

感谢原作者。本文只为学习分享，如给原作者带来不便对此感到抱歉，同时请告知。谢谢！

要解决的问题：
1，是占两个字节的字符吗?
2，怎么定义?
3，宽字符应用在哪里?
----------------------------------------------

是的，宽字符是双字节多语言字符代码。

C语言中：

C中的宽字符基于wchar_t数据型态，它在几个表头文件包括WCHAR.H中都有定义，像这样：
typedef unsigned short wchar_t ;
因此，wchar_t数据型态与无符号短整数型态相同，都是16位宽。
要定义包含一个宽字符的变量，可使用下面的语句：
wchar_t c = ’A’ ;
变量c是一个双字节值0x0041，是Unicode表示的字母A。（然而，因为Intel微处理器从最小的字节开始储存多字节数值，该字节实际上是以0x41、0x00的顺序保存在内存中。如果检查Unicode文字的计算机储存应注意这一点。）

您还可定义指向宽字符串的指针：

wchar_t * p = L"Hello!" ;
注意紧接在第一个引号前面的大写字母L（代表「long」）。这将告诉编译器该字符串按宽字符保存－即每个字符占用2个字节。通常，指针变量p要占用4个字节，而字符串变量需要14个字节－每个字符需要2个字节，末尾的0还需要2个字节。

同样，您还可以用下面的语句定义宽字符数组：

static wchar_t a[] = L"Hello!" ;
该字符串也需要14个字节的储存空间，sizeof (a) 将返回14。索引数组a可得到单独的字符。a[1] 的值是宽字符「e」，或者0x0065。

虽然看上去更像一个印刷符号，但第一个引号前面的L非常重要，并且在两个符号之间必须没有空格。只有带有L，编译器才知道您需要将字符串存为每个字符2字节。稍后，当我们看到使用宽字符串而不是变量定义时，您还会遇到第一个引号前面的L。幸运的是，如果忘记了包含L，C编译器通常会给提出警告或错误信息。

您还可在单个字符文字前面使用L前缀，来表示它们应解释为宽字符。如下所示：

wchar_t c = L’A’ ;
但通常这是不必要的，C编译器会对该字符进行扩充，使它成为宽字符。

宽字符链接库函数

我们都知道如何获得字符串的长度。例如，如果我们已经像下面这样定义了一个字符串指针：

char * pc = "Hello!" ;
我们可以呼叫

iLength = strlen (pc) ;
这时变量iLength将等于6，也就是字符串中的字符数。

太好了！现在让我们试着定义一个指向宽字符的指针：

wchar_t * pw = L"Hello!" ;
再次呼叫strlen ：

iLength = strlen (pw) ;
现在麻烦来了。首先，C编译器会显示一条警告消息，可能是这样的内容：

’’ : incompatible types - from ’unsigned short *’ to ’const char *’

这条消息的意思是：声明strlen函数时，该函数应接收char类型的指标，但它现在却接收了一个unsigned short类型的指标。您仍然可编译并执行该程序，但您会发现iLength等于1。为什么？

字符串「Hello!」中的6个字符占用16位：

0x0048 0x0065 0x006C 0x006C 0x006F 0x0021Intel处理器在内存中将其存为：

48 00 65 00 6C 00 6C 00 6F 00 21 00假定strlen函数正试图得到一个字符串的长度，并把第1个字节作为字符开始计数，但接着假定如果下一个字节是0，则表示字符串结束。

这个小练习清楚地说明了C语言本身和执行时期链接库函数之间的区别。编译器将字符串L"Hello!" 解释为一组16位短整数型态数据，并将其保存在wchar_t数组中。编译器还处理数组索引和sizeof操作符，因此这些都能正常工作，但在连结时才添加执行时期链接库函数，例如strlen。这些函数认为字符串由单字节字符组成。遇到宽字符串时，函数就不像我们所希望那样执行了。

您可能要说：「噢，太麻烦了！」现在每个C语言链接库函数都必须重写以接受宽字符。但事实上并不是每个C语言链接库函数都需要重写，只是那些有字符串参数的函数才需要重写，而且也不用由您来完成。它们已经重写完了。

strlen函数的宽字符版是wcslen（wide-character string length：宽字符串长度），并且在STRING.H（其中也说明了strlen）和WCHAR.H中均有说明。strlen函数说明如下：

size_t __cdecl strlen (const char *) ; 而wcslen函数则说明如下：

size_t __cdecl wcslen (const wchar_t *) ; 这时我们知道，要得到宽字符串的长度可以呼叫

iLength = wcslen (pw) ; 函数将返回字符串中的字符数6。请记住，改成宽字节后，字符串的字符长度不改变，只是位组长度改变了。

您熟悉的所有带有字符串参数的C执行时期链接库函数都有宽字符版。例如，wprintf是printf的宽字符版。这些函数在WCHAR.H和含有标准函数说明的表头文件中说明。

维护单一原始码

当然，使用Unicode也有缺点。第一点也是最主要的一点是，程序中的每个字符串都将占用两倍的储存空间。此外，您将发现宽字符执行时期链接库中的函数比常规的函数大。出于这个原因，您也许想建立两个版本的程序－一个处理ASCII字符串，另一个处理Unicode字符串。最好的解决办法是维护既能按ASCII编译又能按Unicode编译的单一原始码文件。

虽然只是一小段程序，但由于执行时期链接库函数有不同的名称，您也要定义不同的字符，这将在处理前面有L的字符串文字时遇到麻烦。

一个办法是使用Microsoft Visual C++包含的TCHAR.H表头文件。该表头文件不是ANSI C标准的一部分，因此那里定义的每个函数和宏定义的前面都有一条底线。TCHAR.H为需要字符串参数的标准执行时期链接库函数提供了一系列的替代名称（例如，_tprintf和_tcslen）。有时这些名称也称为「通用」函数名称，因为它们既可以指向函数的Unicode版也可以指向非Unicode版。

如果定义了名为_UNICODE的标识符，并且程序中包含了TCHAR.H表头文件，那么_tcslen就定义为wcslen：

#define _tcslen wcslen 如果没有定义UNICODE，则_tcslen定义为strlen：

#define _tcslen strlen 等等。TCHAR.H还用一个新的数据型态TCHAR来解决两种字符数据型态的问题。如果定义了_UNICODE标识符，那么TCHAR就是wchar_t：

typedef wchar_t TCHAR ; 否则，TCHAR就是Char：

typedef char TCHAR ; 现在开始讨论字符串文字中的L问题。如果定义了_UNICODE标识符，那么一个称作__T的宏就定义如下：

#define __T(x) L##x 这是相当晦涩的语法，但合乎ANSI C标准的前置处理器规范。那一对井字号称为「粘贴符号（token paste）」，它将字母L添加到宏参数上。因此，如果宏参数是"Hello!"，则L##x就是L"Hello!"。

如果没有定义_UNICODE标识符，则__T宏只简单地定义如下：

#define __T(x) x 此外，还有两个宏与__T定义相同：

#define _T（x）__T（x）
#define _TEXT（x）__T（x）在Win32 console程序中使用哪个宏，取决于您喜欢简洁还是详细。基本地，必须按下述方法在_T或_TEXT宏内定义字符串文字：

_TEXT ("Hello!") 这样做的话，如果定义了_UNICODE，那么该串将解释为宽字符的组合，否则解释为8位的字符字符串。

通常，宽字符在内存中占用的空间比多字节字符多，但处理速度更快。另外，在多字节编码中一次只能表示一个区域设置，而世界上的所有字符集都同时以 Unicode 表示形式表示。

宽字符和 Windows

Windows NT从底层支援Unicode。这意味着Windows NT内部使用由16位字符组成的字符串。因为世界上其它许多地方还不使用16位字符串，所以Windows NT必须经常将字符串在操作系统内转换。Windows NT可执行为ASCII、Unicode或者ASCII和Unicode混合编写的程序。即，Windows NT支持不同的API函数呼叫，这些函数接受8位或16位的字符串（我们将马上看到这是如何动作的。）

相对于Windows NT，Windows 98对Unicode的支持要少得多。只有很少的Windows 98函数呼叫支持宽字符串（这些函数列在《Microsoft Knowledge Base article Q125671》中；它们包括MessageBox）。如果要发行的程序中只有一个.EXE文件要求在Windows NT和Windows 98下都能执行，那么就不应该使用Unicode，否则就不能在Windows 98下执行；尤其程序不能呼叫Unicode版的Windows函数。这样，将来发行Unicode版的程序时会处于更有利的位置，您应试着编写既为ASCII又为Unicode编译的原始码。

应用:

// 编译环境 VC++6.0
＃i nclude
＃i nclude
＃i nclude
＃i nclude

void    AnalyzeStr(wchar_t *str){
        wchar_t meter[] = L"，。；：？！";
        char *name[] = { "逗号","句号","分号","冒号","问号","感叹号"};
        int count[6] = {0};
        size_t    length,i;
        wchar_t *p;

        length = wcslen((wchar_t*)str);
        for(i = 0; i < length; i ++){
            if(iswpunct(str[i])){
                p = wcschr((wchar_t*)meter,str[i]);
                if(p==NULL){
                    printf("标点:%wc,不在记录里\n",str[i]);
                    continue;
                }
                count[p-meter] ++;
            }
        }
        for(i = 0; i < 6; i ++){
            if(count[i])
                printf("%s出现了%d次\n",name[i],count[i]);
        }
}

int main(){
    wchar_t test[] = L"中国。台湾，一定？回国；不是吗？";

    AnalyzeStr(test);
    return 0;
}

BSTR是宽字符指针；
_bstr_t是C++对BSTR的封装；
CComBSTR 是ATL对BSTR的封装；

CComBSTR与_bstr_t对大量的操作符进行了重载，可以直接进行=,!=,==等操作，所以使用非常方便。
特别是_bstr_t,建议大家使用它。

//char *转换到BSTR可以这样:

//使用前需要加上comutil.h和comsupp.lib
BSTR b=_com_util::ConvertStringToBSTR("数据");

SysFreeString(bstrvalue);

//反之可以使用
char *p=_com_util::ConvertBSTRToString(b);
delete p;

阅读(1627) | 评论(0) | 转发(0) |

上一篇：解决ubuntu的firefox上网速度慢

下一篇：ubuntu改变文件夹访问权限

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6