中文字符编码简介 GB2312、GBK、GB18030、BIG5-zhangjiakouzf-ChinaUnix博客

zhangjiakouzf

首页　| 　博文目录　| 　关于我

zhangjiakouzf

博客访问： 787128
博文数量： 177
博客积分： 2548
博客等级：少校
技术积分： 1759
用户组：普通用户
注册时间： 2008-11-29 16:36

个人简介

爱咋咋地

文章分类

全部博文（177）

vim（1）
Django（1）
编程（2）
数学（2）
应用（22）
应用（1）
python（1）
python（0）
网络（5）
加解密及&n（3）
shell（5）
binutils（1）
OO（4）
Mail（4）
windows（6）
随笔（6）
HMM&ChineseWordS（2）
mysql（1）
中文分词（0）
字符编码，字符集（6）
ASP（1）
Unit Testing（3）
linux signal-信（1）
daemon（2）
未分配的博文（97）

文章存档

2025年（1）

2024年（1）

2023年（17）

2022年（19）

2021年（3）

2020年（1）

2018年（1）

2017年（1）

2014年（1）

2013年（4）

2012年（11）

2011年（19）

2010年（22）

2009年（71）

2008年（5）

我的朋友

相关博文

中文字符编码简介 GB2312、GBK、GB18030、BIG5

分类： LINUX

2009-01-21 11:31:03

现在的 PC 平台必须支持 GB18030，手机、MP3 一般只支持 GB2312。

GB2312

GB2312 码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。

GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符，其中汉字占 6763 个。GB2312 规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。

GB2312 将代码表分为 94 个区，对应第一字节；每个区 94 个位，对应第二字节，两个字节的值分别为区号值和位号值加 32（2OH）,因此也称为区位码。01-09 区为符号、数字区，16-87 区为汉字区，10-15 区、88-94 区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级：第一级是常用汉字计 3755 个，置于 16-55 区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计 3008 个，置于 56-87 区，按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。

GB2312 的编码范围为 2121H-777EH，与 ASCII 有重叠，通行方法是将 GB 码两个字节的最高位置 1 以示区别。

GBK

GB2312 仅收汉字 6763 个，这大大少于现有汉字，随着时间推移及汉字文化的不断延伸推广，有些原来很少用的字，现在变成了常用字，例如：朱镕基的“镕”字，未收入 GB2312-80，现在大陆的报业出刊只得使用（金+容）、（金容）、（左金右容）等来表示，形式不一而同，这使得表示、存储、输入、处理都非常不方便，对于搜索引擎等软件的构造来说也不是好消息，而且这种表示没有统一标准。从我们对人民日报 98 年数据的处理过程中，得出这样的经验：回填外字最困难的就是如何得到这种表示方法的集合。

为了解决这些问题，以及配合 UNICODE 的实施，全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示，总体编码范围为 8140-FEFE 之间，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 XX7F 一条线。

GBK 共收入 21886 个汉字和图形符号，包括：

* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字，以上合计 20902 个汉字。
* 其它汉字、部首、符号，共计 984 个。

微软公司自 Windows 95 简体中文版开始支持GBK代码，但目前的多数搜索引擎都不能很好地支持 GBK 汉字。

GBK 编码区分三部分：

* 汉字区，包括：

GBK/2：OXBOA1-F7FE, 收录 GB2312 汉字 6763 个，按原序排列；
GBK/3：OX8140-AOFE，收录 CJK 汉字 6080 个；
GBK/4：OXAA40-FEAO，收录 CJK 汉字和增补的汉字 8160 个。

* 图形符号区，包括：

GBK/1：OXA1A1-A9FE，除 GB2312 的符号外，还增补了其它符号
GBK/5：OXA840-A9AO，扩除非汉字区。

* 用户自定义区：

即 GBK 区域中的空白区，用户可以自己定义字符。

GB18030

GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。

目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

BIG5

BIG5 是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

1983年10月，台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于1992年5月公布，更名为《中文标准交换码》，BIG5 是台湾资讯工业策进会根据以上标准制定的编码方案。

BIG5 码是双字节编码方案，其中第一个字节的值在 OXAO-OXFE 之间，第二个字节在 OX40-OX7E 和 OXA1-OXFE 之间。

BIG5 收录 13461 个汉字和符号，包括：

* 符号 408 个，编码位置 A140-A3BE
* 常用字 5401 个，编码位置 A440-C67E，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字 4808 个，台湾教科书常用字 587 个，异体字 6 个。
* 次常用字 7652 个，编码位置 C940-F9D5，包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字 6341 个，《罕用国字标准字体表》中使用频率较高的字 1311 个。

阅读(1264) | 评论(0) | 转发(0) |

上一篇：[转帖]fstream的使用方法介绍

下一篇：Unicode、UCS、UTF-8、UTF-16、UTF-32 的关系

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6