一、Unicode编码

Unicode出现之前已经有各种编码标准：ANSI、ISO8859-1、GB2312、GBK以及BIG-5等。Unicode试图统一各种编码，在Unicode演进过程中，也有自身不断修复的过程：刚开始的时候用16位表达65535个字符，认为已经足够收集所有的字符；后来随着大量中文、韩文和日文等表意文字的加入，已经超出了65535个字符，16位已经不能描述所有的字符集了。

在Unicode字符集中的某个字符对应的代码值，称作代码点（Code Point），用16进制书写，并加上U+前缀。比如，‘田’的代码点是U+7530；‘A’的代码点是U+0041。

Unicode定义的字符集已经超过16位所能表达的范围，把所有这些CodePoint分成17个代码平面（Code Plane）：

U+0000 ~ U+FFFF划入基本多语言平面（Basic MultilingualPlane，简记为BMP）；
其余划入16个辅助平面（Supplementary Plane），代码点范围U+10000 ~ U+10FFFF。

虽然这样划分，但并不是每个Plane中的Code point都对应有字符，这里面有保留的，还有特殊用途的。

二、Unicode编码的实现

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的，但是在实际存储和传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）。

对Unicode编码的主要有UTF-16BE、UTF-16LE、UTF-8、UTF-7以及UTF-32等实现方式，目前常用的实现方式是UTF-16LE、UTF-16BE和UTF-8。

阅读(1162) | 评论(0) | 转发(0) |

上一篇：浅析c语言中的声明

下一篇：shutdown函数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6