汉字的编码形式：输入码、区位码、国标码与机内码-wbstsa-ChinaUnix博客

wbstsa

首页　| 　博文目录　| 　关于我

wbstsa

博客访问： 497045
博文数量： 164
博客积分： 4024
博客等级：上校
技术积分： 1580
用户组：普通用户
注册时间： 2009-10-10 16:27

文章分类

全部博文（164）

MyOS（0）
linux内核（0）
小小心情（0）
经验交流（0）
名企面试题（0）
wince（0）

wince+arm（0）
msp430（0）
c/c++（0）
shell编程（0）
linux下c基础编程（0）
未分配的博文（164）

文章存档

2011年（1）

2010年（108）

2009年（55）

我的朋友

相关博文

汉字的编码形式：输入码、区位码、国标码与机内码

分类：嵌入式

2009-11-10 10:26:17

一。输入码

键盘是当前微机的主要输入设备，输入码就是使用英文键盘输入汉字时的编码。目前，我国已推出的输入码有数百种，但用户使用较多的约为十几种，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类，如“保”?字，用全拼，输入码为“BAO”，用区位码，输入码为“1703”，用五笔字型则为“WKS”。

二。国标码

计算机只识别由0、1组成的代码，ASCII码是英文信息处理的标准编码，汉字信息处理也必须有一个统一的标准编码。汉字交换码（国标码）主要用于汉字信息交换，我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》，代号为GB2312-80，共对6763个汉字和682个图形字符进行了编码，其编码原则为：汉字用两个字节表示，原则上，两个字节可以表示 256×256＝65536 种不同的符号，作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码，如ASCII 西文字符编码的关系，我国国家标准局采用了加以修正的两字节汉字编码方案，只用了两个字节的低7位。这个方案可以容纳 128×128=16384 种不同的汉字，但为了与标准ASCII码兼容，每个字节中都不能再用３２个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样，双七位实际能够表示的字数是：94×94＝8836个。

三。区位码

　　所有的国标码汉字及符号组成一个94行94列的二维代码表中。在此方阵中，每一行称为一个"区"，每一列称为一个"位"。这个方阵实际上组成一个有94个区（编号由01到94），每个区有94个位（编号由01到94）的汉字字符集。每两个字节分别用两位十进制编码，前字节的编码称为区码，后字节的编码称为位码，此即区位码，其中，高两位为区号，低两位为位号。这样区位码可以唯一地确定某一汉字或字符；反之，任何一个汉字或符号都对应一个唯一的区位码，没有重码。如“保”字在二维代码表中处于17区第3位，区位码即为“1703 ”。

　　国标码并不等于区位码，它是由区位码稍作转换得到,其转换方法为：先将十进制区码和位码转换为十六进制的区码和位码，;这样就得了一个与国标码有一个相对位置差的代码，再将这个代码的第一个字节和第二个字节分别加上20H，就得到国标码。如：“保”?字的国标码为3123H，它是经过下面的转换得到的：1703D－>1103H->+20H－>3123H。（20h就是十进制的32，上文提到了“但为了与标准ASCII码兼容，每个字节中都不能再用３２个控制功能码和码值为32的空格以及127的操作码”）

四。机内码

　　国标码是汉字信息交换的标准编码，但因其前后字节的最高位为0，与ASCII码发生冲突，如“保”?字，国标码为31H和23H，而西文字符“1”和“#”的SCII也为31H和23H，现假如内存中有两个字节为31H和23H，;这到底是一个汉字?，还是两个西文字符“1”;和“#”?于是就出现了二义性，显然，国标码是不可能在计算机内部直接采用的，于是，;汉字的机内码采用变形国标码，其变换方法为：将国标码的每个字节都加上128，即将两个字节的最高位由0改1，其余7位不变，如：由上面我们知道，“保”字的国标码为3123H，前字节为00110001B，后字节为00100011B，高位改1为10110001B和10100011B 即为B1A3H，因此，保字的机内码就是B1A3H。

　　显然，汉字机内码的每个字节都大于128，这就解决了与西文字符的ASCII码冲突的问题。

　　如上所述，汉字输入码、区位码，国标码与机内码都是汉字的编码形式，它们之间有着千丝万缕的联系，但其间的区别也是不容忽视的。

阅读(1939) | 评论(0) | 转发(0) |

上一篇：MSP430 指令集

下一篇：在C程序中显示汉字

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6