爱咋咋地
分类: LINUX
2009-07-19 17:40:35
字符集(编码标准) | 等同国际标准 | 编码方式 | 实现方式 | 备注 |
将码由7位扩充为8位而成。EASCII的内码是由0到255共有256个字符组成。EASCII码比ASCII码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。 | ||||
每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。 | ||||
(与上面那个不同) |
ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7E-0x9F)。 | |||
UCS-2,使用16位的编码空间 UCS-4,占用4字节编码空间 |
UTF-7 |
任何文字在Unicode中都对应一个值,这个值称为代码点(code point)。代码点的值通常写成 U+ABCD 的格式。 UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。 | ||
从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。 | ||||
GB?2312字符使用两个字节来表示。“第一位字节”使用0xA1-0xF7,“第二位字节”使用0xA1-0xFE |
||||
GBK是双字节编码,每个字符用两个字节表示。 |
GBK 同时也向下兼容GB2312 编码 GB18030双字节字符的码位空间就是0x8140~0xFE7E和0x8180~0xFEFE,双字节字符的码位数目是7938+16002=23940。0x8140~0xFE7E和0x8180~0xFEFE也是GBK的全部码位空间。GBK在这23940个码位中定义了21886个字符。 | |||
GB 13000 | ||||
每个字可以由1个、2个或4个字节组成 | 单字节,其值从0到0x7F。 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。 |
Unicode转换格式(Unicode Translation Format,简称为 UTF)。