ANSI-remimin-ChinaUnix博客

remiminremimin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

remimin

博客访问： 438417
博文数量： 83
博客积分： 2622
博客等级：少校
技术积分： 1345
用户组：普通用户
注册时间： 2010-03-17 08:59

个人简介

一直在努力

文章分类

全部博文（83）

KVM（1）
openstack（9）

ERROR（1）
算法与数据结构（3）
swift（2）
python（5）
分级存储（1）
C/C++语言学习（6）
Linux工具使用（4）
Nginx学习（11）
job controller（6）
iphone初探（15）

CFNetwork（2）
windows编程（2）
未分配的博文（18）

文章存档

2014年（3）

2013年（9）

2012年（46）

2010年（25）

我的朋友

关于ANSI编码

　　unicode和ansi都是字符代码的一种表示形式。

　　为使计算机支持更多语言，通常使用 0x80~0xFF 范围的 2 个来表示 1 个字符。比如：汉字 '中' 在中文操作系统中，使用 [0xD6,0xD0] 这两个字节存储。

　　不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。

　　不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

2. Unicode
　如上，ANSI有很多代码页，使用不同代码页的内码无法在其他代码也正常显示，这就是为什么日文版／繁体中文版游戏无法在简体中文平台直接显示的原因．
    Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案．它是一种２字节编码，能够提供６５５３６个字符，这个数字是不够表示所有的字符的（汉语就有５５０００多字符），所以，通过一个代理对的机制来实现附加的９１７，４７６个字符表示，以达到所有字符都具有唯一编码．

３．Unicode和BigEndianUnicode
    这两者只是存储顺序不同，如＂A＂的unicode编码为65 00
    其BigEndianUnicode编码为00 65

4. UTF-8

这是为传输而设计的编码，其系列还有UTF-7和UTF-16
其中UTF-16和Unicode编码大致一样, UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式如下：
　　　　　Unicode编码(16进制)　　　　　　UTF-8 字节流(二进制)
　　　　　0000 - 007F　　　　　　　　　0xxxxxxx
　　　　　0080 - 07FF　　　　　　　　　110xxxxx 10xxxxxx
　　　　　0800 - FFFF　　　　　　　　　1110xxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

C语言原本是在英文环境中设计的，主要的字符集是7位的ASCII码，8位的byte（字节）是最常见的字符编码单位。但是国际化软件必须能够表示不同的字符，而这些字符数量庞大，无法使用一个字节编码。

　　C95标准化了两种表示大型字符集的方法：宽字符（wide character，该字符集内每个字符使用相同的位长）以及多字节字符（multibyte character，每个字符可以是一到多个字节不等，而某个字节序列的字符值由字符串或流（stream）所在的环境背景决定）。

　　自从年的增补之后，C语言不只提供char类型，还提供wchar_t类型（宽字符），此类型定义在stddef.h 头文件中。wchar_t指定的宽字节类型足以表示某个实现版本扩展字符集的任何元素。

　　在多字节字符集中，每个字符的编码宽度都不等，可以是一个字节，也可以是多个字节。源代码字符集和运行字符集都可能包含多字节字符。多字节字符可以被用于字符的常量、字符串字面值（string literal）、标识符（identifier）、注释（comment），以及头文件。

　　C语言本身并没有定义或指定任何编码集合，或任何字符集（基本源代码字符集和基本运行字符集除外），而是由其实现指定如何编码宽字符，以及要支持什么类型的多字节字符编码机制。

　　虽然C标准没有支持Unicode字符集，但是许多实现版本使用Unicode转换格式UTF-16和UTF-32来处理宽字符。如果遵循Unicode标准，wchar_t类型至少是16或32位长，而wchar_t类型的一个值就代表一个Unicode字符。

　　UTF-8是一个由Unicode Consortium（万国码联盟）定义的实现，可以表示Unicode字符集的所有字符。UTF-8字符所使用的空间大小从一个字节到四个字节都有可能。

　　多字节字符和宽字符（也就是wchar_t）的主要差异在于宽字符占用的字节数目都一样，而多字节字符的字节数目不等，这样的表示方式使得多字节字符串比宽字符串更难处理。比方说，即使字符'A'可以用一个字节来表示，但是要在多字节的字符串中找到此字符，就不能使用简单的字节比对，因为即使在某个位置找到相符合的字节，此字节也不见得是一个字符，它可能是另一个不同字符的一部分。然而，多字节字符相当适合用来将文字存储成文件。

　　C提供了一些标准函数，可以将多字节字符转换为wchar_t，或将宽字符转换为多字节字符。比方说，如果C 编译器使用Unicode 标准的UTF-16 和UTF-8，那么下面调用wctomb()函数就可以获得字符的多字节表示方式（注：wctomb = wide character to multibyte）。

阅读(1028) | 评论(0) | 转发(0) |

上一篇：C++和Objective-C混编（官方文档翻译）

下一篇：[MFC]CString与其他类型的转换

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6