Unicode编码介绍-1jjk-ChinaUnix博客

1jjk's Blog1jjk.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

1jjk

博客访问： 580664
博文数量： 99
博客积分： 3976
博客等级：中校
技术积分： 1041
用户组：普通用户
注册时间： 2005-08-15 15:48

文章分类

全部博文（99）

数学基础（0）
shell学习（3）
嵌入式系统学习（8）
找到的好文（5）
服务器管理（13）
代码学习（47）
安全（3）
无聊话题（6）
未分配的博文（14）

文章存档

2009年（1）

2008年（5）

2007年（31）

2006年（58）

2005年（4）

我的朋友

相关博文

Unicode编码介绍

分类： LINUX

2008-07-07 11:08:21

Unicode:

unicode.org制定的编码机制, 要将全世界常用文字都函括进去.
在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符; 在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF.

UTF: Unicode/UCS Transformation Format

UTF-8, 8bit编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte. 通常作为外码. 有以下优点:
* 与CPU字节顺序无关, 可以在不同平台之间交流
* 容错能力高, 任何一个字节损坏后, 最多只会导致一个编码码位损失, 不会链锁错误(如GB码错一个字节就会整行乱码)

UTF-16, 16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
UTF-16是unicode的preferred encoding.

UTF-32, 仅使用了unicode范围(0到0x10FFFF)的32位编码, 相当于UCS-4的子集.

UTF与unicode的关系:

Unicode是一个字符集, 可以看作为内码.
而UTF是一种编码方式, 它的出现是因为unicode不适宜在某些场合直接传输和处理. UTF-16直接就是unicode编码, 没有变换, 但它包含了0x00在编码内, 头256字节码的第一个byte都是0x00, 在操作系统(C语言)中有特殊意义, 会引起问题. 采用UTF-8编码对unicode的直接编码作些变换可以避免这问题, 并带来一些优点.

阅读(2169) | 评论(0) | 转发(0) |

上一篇：制作linux的logo的方法

下一篇：[转]Sans Serif 与 Serif 字体

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6