GB GBK GB18030 UNICODE区别于联系-jcodeer-ChinaUnix博客

程序点滴jcodeer.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

jcodeer

博客访问： 1733927
博文数量： 171
博客积分： 11553
博客等级：上将
技术积分： 3986
用户组：普通用户
注册时间： 2006-05-25 20:28

文章分类

全部博文（171）

LFS（6）
GNOME Applicatio（42）
bash（13）
Java编程（16）
VBScript（24）
.Net编程（9）
C++编程（18）
基础知识（4）
生活色彩（12）
幽默故事（0）
混合编程（4）
函数式编程（0）
结构化编程（0）
数据库编程（0）
编程思考（0）
工具优化（0）
应用程序（3）
领域模块（0）
面向对象（0）
操作系统（2）
界面设计（2）
网络应用（4）
未分配的博文（12）

文章存档

2012年（2）

2011年（70）

2010年（9）

2009年（14）

2008年（76）

我的朋友

相关博文

GB GBK GB18030 UNICODE区别于联系

分类： C/C++

2008-06-04 22:54:02

最近常见有人对GB、GBK、GB18030、Unicode等编码概念不清，再掺杂上Ext-A、Ext-B、Ext-C等，更混乱了。所以特别整理一些知识贴出来给大家：
1、GB、BIG5、GBK、GB18030
字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的BIG5。
GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。
GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
从ASCII、GB2312、 GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。
有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符（就是Ext-A部分），普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。
2、Unicode、UCS和UTF
前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。
Unicode 也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。
根据维基百科全书()的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。
在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。
目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。
UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。
IETF 的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。IETF是 Internet Engineering Task Force的缩写。IETF负责维护的RFC是Internet上一切规范的基础。
    所以从汉字包含来看，简单地可以说：
               GB2312＝ASCII＋常用汉字＋符号
               GBK＝GB2312＋不常用字（含BIG5繁体汉字）＋图形符号
               GB18030＝GBK＋Ext-A＋图形符号
               Unicode＝GB18030＋Ext-B＋……（如未发布的Ext-C及其它国家文字）
               注意：Unicode的汉字编码与前三者不一样

阅读(4816) | 评论(0) | 转发(1) |

上一篇：获取鼠标信息

下一篇：优秀代码网址

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6