对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的-gslsok-ChinaUnix博客

高山流水的博客gslsok.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

gslsok

博客访问： 1487781
博文数量： 295
博客积分： 10051
博客等级：上将
技术积分： 3850
用户组：普通用户
注册时间： 2008-04-11 08:50

文章分类

全部博文（295）

服务器应用（5）

vpn（0）

samba（0）

mail（5）

ftp（0）

dns（0）

web（0）
英语学习（6）
人生感悟（4）

笑话（0）
网络技术（53）

网络协议（29）

网页制作（2）

字符编码（18）

Ros 软路由（1）
通信技术（1）
操作系统（120）

Sun Solaris（3）

freebsd（110）

linux（6）

windows（1）

dos（0）
编程开发（54）

java（54）
数据库（50）

Oracle（7）

Mysql（43）
IT资讯（1）
未分配的博文（1）

文章存档

2011年（1）

2009年（4）

2008年（290）

我的朋友

对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解

Unicode:

unicode.org制定的编码机制, 要将全世界常用文字都函括进去.
在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符; 在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF.

UCS:

ISO制定的ISO10646标准所定义的 Universal Character Set, 采用4byte编码.

Unicode与UCS的关系:

ISO与unicode.org是两个不同的组织, 因此最初制定了不同的标准; 但自从unicode2.0开始, unicode采用了与ISO 10646-1相同的字库和字码, ISO也承诺ISO10646将不会给超出0x10FFFF的UCS-4编码赋值, 使得两者保持一致.

UCS的编码方式:

UCS-2, 与unicode的2byte编码基本一样.

UCS-4, 4byte编码, 目前是在UCS-2前加上2个全零的byte.

UTF: Unicode/UCS Transformation Format

UTF-8, 8bit编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte. 通常作为外码. 有以下优点:
* 与CPU字节顺序无关, 可以在不同平台之间交流
* 容错能力高, 任何一个字节损坏后, 最多只会导致一个编码码位损失, 不会链锁错误(如GB码错一个字节就会整行乱码)

UTF-16, 16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
UTF-16是unicode的preferred encoding.

UTF-32, 仅使用了unicode范围(0到0x10FFFF)的32位编码, 相当于UCS-4的子集.

UTF与unicode的关系:

Unicode是一个字符集, 可以看作为内码.
而UTF是一种编码方式, 它的出现是因为unicode不适宜在某些场合直接传输和处理. UTF-16直接就是unicode编码, 没有变换, 但它包含了0x00在编码内, 头256字节码的第一个byte都是0x00, 在操作系统(C语言)中有特殊意义, 会引起问题. 采用UTF-8编码对unicode的直接编码作些变换可以避免这问题, 并带来一些优点.

中国国标编码:

GB 13000: 完全等同于ISO 10646-1/Unicode 2.1, 今后也将随ISO 10646/Unicode的标准更改而同步更改.

GBK: 对GB2312的扩充, 以容纳GB2312字符集范围以外的Unicode 2.1的统一汉字部分, 并且增加了部分unicode中没有的字符.

GB 18030-2000: 基于GB 13000, 作为Unicode 3.0的GBK扩展版本, 覆盖了所有unicode编码, 地位等同于UTF-8, UTF-16, 是一种unicode编码形式. 变长编码, 用单字节/双字节/4字节对字符编码. GB18030向下兼容GB2312/GBK.
GB 18030是中国所有非手持/嵌入式计算机系统的强制实施标准

阅读(1118) | 评论(0) | 转发(0) |

上一篇：什么是Unicode(统一码)?

下一篇：UTF-16

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6