分类:
2008-03-12 22:01:22
字符集是将人类使用的自然文字映射到计算机内部二进制的表示方法,是某种文字和字符的集合;
编码是对这种字符集的编码方式。
1. ASCII字符集
ASCII(American Standart Code for Information Interchange,美国信息交换标准代码表)是最早的字符集方案。
ASCII编码结构是7位(00~7F),第八位没有使用,主要包括基本的大小写字母和常用符号。ASCII码32~127表示大小写字符,32表示空格,32以下的是控制字符(不可见)。
2. ISO-889字符集
虽然ASCII字符集基本支持计算机对字符的显示,但是某些西欧国家的字符集却不支持,于是有人将ASCII码扩展到0~255的范围,就形成了ISO-8859字符集。因此ISO-8859 = 128个ASCII字符 + 128个新增字符(用于西欧国家的符号)。
3. ANSI编码
ANSI编码代表本地编码,正式名称位MBCS(Multi-Byte Chactacter System,多字节字符系统)。通常用0x80~0xFF中的两个字节来表示一个字符。
为了能够处理各个国家的文字,不同国家和地区指定了不同的标准。如GB2312(中国大陆和新加坡)、BIG5(中国香港和中国台湾),ShiftJIS(日本)等。这些使用2个字节来代表1个字符的各种文字延伸编码方式,成为ANSI编码。
4. GB2312和GBK编码
GB2312编码用两个数来编码汉字和中文符号。第一个成为“区”,第二个成为“位”,1~9区是中文符号,16~55区是一级汉字,56~87区是二级汉字,所以又被称为区位码。一共由6763个汉字和682个汉字以外的图形字符组成。
GBK编码是对GB2312编码的补充,包含2万多个字符,除了和GB2312兼容外,还包含并且增加了部分Unicode中没有的字符。
5. Unicode字符集
UTF编码,即Unicode Transformer Format是UCS的实际表示方式,按其基本长度所用位数分为UTF-8/16/32位3种。UTF是所有其他字符集标准的一个超集,它保证与其他字符集是双向兼容的,就是说,如果将任何文本字符串转换成UCS格式,然后再翻译回去,不会丢失任何信息。
6. UTF-8字符集
UTF-8保持字母数字一个字节,其他的用不定长编码到最多到6个字节,支持到31位编码。前64k的Unicode(UCS-2)编成UTF-8只需3个字节。