字符编码-jeffasdasd-ChinaUnix博客

jeffasdasd

首页　| 　博文目录　| 　关于我

jeffasdasd

博客访问： 2706517
博文数量： 877
博客积分： 0
博客等级：民兵
技术积分： 5921
用户组：普通用户
注册时间： 2013-12-05 12:25

个人简介

技术的乐趣在于分享，欢迎多多交流，多多沟通。

文章分类

全部博文（877）

ffmpeg（1）
JAVA（0）
HTML5（1）
Android（0）
IOS（325）

iOS UI （12）

IOS 综合（105）

Swift（0）

IOS网络（7）

iOS多线程（21）

iOS UI （29）

Object-C（38）
C++（7）
windows dri（84）
IIC（5）
销售（6）
蓝牙4.0 BLE（5）
SD卡及SDIO卡（3）
数据结构（7）
算法（8）
C语言自己发现的（6）
Smart Card（13）
杂谈（12）
字库（41）
SPI（20）
USB（41）
面试试题（12）
软件开发（40）

优秀的博客地址（8）
Linux--C语言（121）
Linux 内核（14）
Uboot移植--转载（6）
linux驱动（18）
linux内核源码分（4）
linux内核移植（17）
文件系统（2）
ARM 硬件（15）
linux Ubunt（5）
uboot（32）
ARM 向量中（6）
未分配的博文（0）

文章存档

2021年（2）

2016年（20）

2015年（471）

2014年（358）

2013年（26）

我的朋友

2编码编辑

在显示器上看见的文字、图片等信息在电脑里面其实并不是我们看见的样子，即使你知道所有信息都存储在硬盘里，把它拆开也看不见里面有任何东西，只有些盘片。假设，你用显微镜把盘片放大，会看见盘片表面凹凸不平，凸起的地方被磁化，凹的地方是没有被磁化；凸起的地方代表数字1，凹的地方代表数字

EBCDIC

0。硬盘只能用0和1来表示所有文字、图片等信息。那么字母”A”在硬盘上是如何存储的呢？可能小张计算机存储字母”A”是1100001，而小王存储字母”A”是11000010，这样双方交换信息时就会误解。比如小张把1100001发送给小王，小王并不认为1100001是字母”A”，可能认为这是字母”X”，于是小王在用访问存储在硬盘上的1100001时，在上显示的就是字母”X”。也就是说，小张和小王使用了不同的编码表。小张用的编码表是ASCII，ASCII编码表把26个字母都一一的对应到2进制1和0上；小王用的编码表可能是EBCDIC,只不过EBCDIC编码与ASCII编码中的字母和01的对应关系不同。一般地说，开放的（LINUX 、WINDOWS等）采用ASCII 编码，而大型（MVS 、OS/390等）采用EBCDIC 编码。在发送数据给对方前，需要事先告知对方自己所使用的编码，或者通过，使不同编码方案的两个系统可沟通自如。

ASCII码使用7位2进制数表示一个字符，这样，7位2进制数可以表示出2的7次方个字符，共128个字符。EBCDIC码使用8位，可以表示出2的8次方个字符，256个字符。

无论是ASCII码还是EBCDIC码，都无法对拥有几万个的汉字进行编码。因为上面已经提过，7位2进制数最多对应上128个字符，8位最多对应上256个字符。

0~31及127（共33个）是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格）、BEL（振铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值为8、9、10和13分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示，但会依不同的应用程序而对文本显示有不同的影响。

32~126（共95个）是字符（32sp是空格），其中48~57为0到9十个阿拉伯数字，65~90为26个大写英文字母，97~122为26个小写字母，其余为一些标点符号、运算符号等。[1]

3MBCS编辑

为了扩充，以用于显示本国的语言，不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码，又称为"MBCS（Muilti-Bytes Charecter Set，多字节字符集）"。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文下，ANSI 编码代表 JIS 编码，所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。一个很大的缺点是，同一个编码值，在不同的编码体系里代表着不同的字。这样就容易造成混乱。导致了unicode码的诞生。

其中每个语言下的ANSI编码，都有一套一对一的编码转换器，Unicode变成所有编码转换的中间介质。所有的编码都有一个转换器可以转换到Unicode，而Unicode也可以转换到其他所有的编码。

4GB2312编辑

GB2312 也是ANSI编码里的一种，对ANSI编码最初始的进行扩充，为了满足国内在计算机中使用汉字的需要，中国国家标准总局发布了一系列的汉字国家标准编码，统称为GB码，或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码基本集》，标准号为GB 2312-1980,因其使用非常普遍，也常被通称为国标码。GB2312编码通行于我国内地；新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。

GB 2312是一个，由6763个常用汉字和682个的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个，二级汉字3008个。由于字符数量比较大，GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵，对每一行称为一个“区”，每一列称为一个“位”，然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置，这个位置可以用区号、位号合成表示，称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上，其区位码为1601。因为区位码同字符的位置是完全对应的，因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。GB2312字符的排列分布情况见表1－4。

表1－4 GB2312 字符编码分布表

分区范围	符号类型
第01区	中文标点、数学符号以及一些特殊字符
第02区	各种各样的数学序号
第03区	全角西文字符
第04区	日文平假名
第05区	日文片假名
第06区	希腊字母表
第07区	俄文字母表
第08区	中文拼音字母表
第09区	制表符号
第10－15区	无字符
第16－55区	一级汉字（以拼音字母排序）
第56－87区	二级汉字（以部首笔画排序）
第88－94区	无字符

GB2312字符在计算机中存储是以其区位码为基础的，其中汉字的区码和位码分别占一个存储单元，每个汉字占两个存储单元。由于区码和位码的取值范围都是在1－94之间，这样的范围同西文的存储表示冲突。例如汉字‘珀’在GB2312中的区位码为7174，其两表示形式为71，74；而两个西文字符‘GJ’的存储码也是71,74。这种冲突将导致在解释编码时到底表示的是一个汉字还是两个西文字符将无法判断。

为避免同西文的存储发生冲突，GB2312字符在进行存储时，通过将原来的每个第8bit设置为1同西文加以区别，如果第8bit为0，则表示西文字符，否则表示GB2312中的字符。实际存储时，采用了将区位码的每个分别加上A0H（160）的方法转换为存储码，计算机存储规则是此编码的补码，而且是位码在前，区码在后。例如汉字‘啊’的区位码为1601，其存储码为B0A1H，其转换过程为：

区位码	区码转换	位码转换	存储码
1001H	10H+A0H=B0H	01H+A0H=A1H	B0A1H

GB2312编码用两个(8位2进制)表示一个汉字，所以理论上最多可以表示256×256=65536个汉字。但这种编码方式也仅仅在中国行得通，如果您的网页使用的GB2312编码，那么很多外国人在浏览你的网页时就可能无法正常显示，因为其不支持GB2312编码。当然，中国人在浏览外国网页(比如日文)时，也会出现或无法打开的情况，因为我们的没有安装日文的编码表。

5GBK编辑

GBK即汉字内码扩展规范，K为扩展的汉语拼音中“扩”字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码——基本集》，1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个，通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展，也就是CP936字码表 (Code Page 936)的扩展（之前CP936和GB 2312-80一模一样）。

基本简介

GB 2312的出现，基本满足了汉字的计算机处理需要，但对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字的出现。

采用双表示，总体编码范围为8140-FEFE，首字节在81-FE 之间，尾字节在40-FE 之间，剔除 xx7F一条线。总计23940 个码位，共收入21886个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号883 个。P-Windows3.2和苹果OS以GB2312为基本， Windows 95/98则以GBK为基本汉字编码。

有些汉字用和拼音都打不出来，如：溙（五笔IDWI），须调出GBK才能打出这个字。中可右击图标，设置，属性中选GBK。中可点击工具条中相关图标进行转换。

计算公式

GBK码对中的计算公式为：

[(GBKH-0xB0)*0x5E+(GBKL-0xA1)]*(汉字离散后每个汉字所占用的)

编码方式

字符有一和双字节编码，00–7F范围内是一位，和保持一致，此范围内严格上说有96个字符和32个控制符号。

之后的双中，前一字节是双字节的第一位。总体上说第一的范围是81–FE（也就是不含80和FF），第二字节的一部分领域在40–7E，其他领域在80–FE。

6Big5编辑

在台湾、香港与澳门地区，使用的是繁体中文。而1980年发布的GB2312面向，并不支持繁体汉字。在这些使用繁体中文的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。为统一繁体编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为。

是一种繁体中文汉字，其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。的编码码表直接针对而设计，每个字符统一使用两个存储表示。第1范围81H－FEH，避开了同ASCII码的冲突，第2字节范围是40H－7EH和A1H－FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种的字符同时支持。

Big5编码的分布如表1－5所示，Big5字符主要部分集中在三个段内：标点符号、希腊字母及特殊符号；常用汉字；非常用汉字。其余部分保留给其他厂商支持。

表1－5　Big5字符编码分布表

编码范围	符号类别
8140H－A0FEH	保留（用作造字区）
A140H－A3BFH	标点符号、希腊字母及特殊符号
A3C0H－A3FEH	保留（未开放用于造字区）
A440H－C67EH	常用汉字（先按笔划，再按部首排序）
C6A1H－C8FEH	保留（用作造字区）
C940H－F9D5H	非常用汉字（先按笔划，再按部首排序）
F9D6H－FEFEH	保留（用作造字区）

Big5编码推出后，得到了繁体中文软件厂商的广泛支持，在使用繁体汉字的地区迅速普及使用。目前，Big5编码在台湾、香港、澳门及其他海外华人中普遍使用，成为了繁体中文编码的事实标准。在互联网中检索繁体中文网站，所打开的网页中，大多都是通过Big5编码产生的文档。

7Unicode（UTF-16）编辑

如上ANSI编码条例中所述，世界上存在着多种编码方式，在ANSi编码下，同一个编码值，在不同的编码体系里代表着不同的字。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文下，ANSI 编码代表 JIS 编码，可能最终显示的是中文，也可能显示的是日文。在ANSI编码体系下，要想打

UNICODE

开一个文本文件，不但要知道它的编码方式，还要安装有对应编码表，否则就可能无法读取或出现。为什么和网页都经常会出现，就是因为信息的提供者可能是日文的ANSI编码体系和信息的读取者可能是中文的编码体系，他们对同一个二进制编码值进行显示，采用了不同的编码，导致乱码。这个问题促使了unicode码的诞生。

如果有一种编码，将世界上所有的符号都纳入其中，无论是英文、日文、还是中文等，大家都使用这个，就不会出现编码不匹配现象。每个符号对应一个唯一的编码，问题就不存在了。这就是Unicode编码。

Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，“汉”这个字的Unicode编码是U+6C49。

Unicode固然统一了编码方式，但是它的效率不高，比如UCS-4(Unicode的标准之一)规定用4个一个符号，那么每个英文字母前都必然有三个字节是0，这对存储和传输来说都很耗资源。

8UTF-8编辑

为了提高Unicode的编码效率，于是就出现了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短。比如英文字母可以只用1个就够了。

UTF-8的编码是这样得出来的，以”汉”这个字为例：

“汉”字的Unicode编码是U+00006C49，然后把U+00006C49通过UTF-8编码器进行编码，最后输出的UTF-8编码是E6B189。

9Base64编辑

有的(比如国外信箱)不支持非英文字母(比如汉字)传输，

Base64编码

这是历史原因造成的(认为只有美国会使用电子邮件?)。因为一个英文字母使用ASCII编码来存储，占的1个(8位)，实际上只用了7位2进制来存储，第一位并没有使用，设置为0，所以，这样的系统认为凡是第一位是1的字节都是错误的。而有的编码方案(比如GB2312)不但使用多个编码一个字符，并且第一位经常是1，于是邮件系统就把1换成0，这样收到邮件的人就会发现邮件。

为了能让正常的收发信件，就需要把由其他编码存储的符号转换成ASCII码来传输。比如，在一端发送GB2312编码－>根据Base64规则－>转换成ASCII码，接收端收到ASCII码－>根据Base64规则－>还原到GB2312编码。

阅读(844) | 评论(0) | 转发(0) |

上一篇：为什么不用区位码直接表示国标码，为要加上2020H？

下一篇：GB18030编码研究以及GBK、GB18030与Unicode的映射

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6