GB2312-80-whtonline-ChinaUnix博客

whtonline.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

whtonline

博客访问： 1452966
博文数量： 430
博客积分： 9995
博客等级：中将
技术积分： 4388
用户组：普通用户
注册时间： 2006-05-24 18:04

文章分类

全部博文（430）

嵌入式资料（7）
嵌入式数据库（10）
linux守护进程（7）
GAME（1）
Linux（113）
MFC-API（26）

网络函数（14）

Windows消息函数（11）

内存字符串结构及（0）

进程和线程函数（0）

文件处理函数（0）

打印函数（0）

文本和字体函数（0）

菜单函数（0）

位图图标和光栅运（0）

绘图函数（0）

设备场景函数（0）

硬件与系统函数（0）

控件与消息函数（0）
MFC消息循环和消（32）
历史（9）
DELPHI（3）
OTHRE（1）
MIPS（23）
EGUI（49）
MFC（38）
.NET（12）
图形图象（4）
SDL实例代码分析（5）
SDL开发环境的建（46）

linux环境建立（4）

windows环境建立（6）
SDL代码片段（29）
名词解释（9）
未分配的博文（6）

文章存档

2013年（1）

2008年（2）

2007年（14）

2006年（413）

最近访客

推荐博文

GB2312-80

分类：

2006-11-17 12:38:26

GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。

GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符，其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。

GB2312将代码表分为94个区，对应第一字节；每个区94个位，对应第二字节，两个字节的值分别为区号值和位号值加32（2OH）,因此也称为区位码。01-09区为符号、数字区，16-87区为汉字区，10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。故而GB2312最多能表示6763个汉字。

GB2312的编码范围为2121H-777EH，与ASCII有重叠，通行方法是将GB码两个字节的最高位置1以示区别。

GBK

GB2312-80仅收汉字6763个，这大大少于现有汉字，随着时间推移及汉字文化的不断延伸推广，有些原来很少用的字，现在变成了常用字，例如：朱镕基的“镕”字，未收入GB2312-80，现在大陆的报业出刊只得使用（金+容）、（金容）、（左金右容）等来表示，形式不一而同，这使得表示、存储、输入、处理都非常不方便，对于搜索引擎等软件的构造来说也不是好消息，而且这种表示没有统一标准。从我们对人民日报98年数据的处理过程中，得出这样的经验：回填外字最困难的就是如何得到这种表示方法的集合。

为了解决这些问题，以及配合UNICODE的实施，全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK向下与GB2312 完全兼容，向上支持ISO 10646国际标准，在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示，总体编码范围为8140-FEFE之间，首字节在81-FE之间，尾字节在40-FE之间，剔除XX7F一条线。

GBK共收入21886个汉字和图形符号，包括：

* GB2312中的全部汉字、非汉字符号。
* BIG5中的全部汉字。
* 与ISO 10646相应的国家标准GB13000中的其它CJK汉字，以上合计20902个汉字。
* 其它汉字、部首、符号，共计984个。

微软公司自Windows 95 简体中文版开始支持GBK代码，但目前的多数搜索引擎都不能很好地支持GBK汉字。

GBK编码区分三部分：

* 汉字区　包括
GBK/2：OXBOA1-F7FE, 收录GB2312汉字6763个，按原序排列；
GBK/3：OX8140-AOFE，收录CJK汉字6080个；
GBK/4：OXAA40-FEAO，收录CJK汉字和增补的汉字8160个。
* 图形符号区　包括
GBK/1：OXA1A1-A9FE，除GB2312的符号外，还增补了其它符号
GBK/5：OXA840-A9AO，扩除非汉字区。
* 用户自定义区
即GBK区域中的空白区，用户可以自己定义字符。
3 GB18030

GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。

目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

4 BIG5

BIG5是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

1983年10月，台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于1992年5月公布，更名为《中文标准交换码》，BIG5是台湾资讯工业策进会根据以上标准制定的编码方案。

BIG5码是双字节编码方案，其中第一个字节的值在OXAO-OXFE之间，第二个字节在OX40-OX7E和OXA1-OXFE之间。

BIG5收录13461个汉字和符号，包括：

* 符号408个，编码位置A140-A3BE
* 常用字5401个，编码位置A440-C67E，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个，台湾教科书常用字587个，异体字6个。
* 次常用字7652个，编码位置C940-F9D5,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个，《罕用国字标准字体表》中使用频率较高的字1311个。

阅读(2741) | 评论(0) | 转发(0) |

上一篇：点阵汉字

下一篇：环型缓冲区

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6