UTF-8汉字编码-flynetcn-ChinaUnix博客

flynetcnflynetcn.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

flynetcn

博客访问： 1219285
博文数量： 252
博客积分： 5421
博客等级：大校
技术积分： 2418
用户组：普通用户
注册时间： 2007-06-17 12:59

文章分类

全部博文（252）

search（4）
python（12）
VC++（1）
GUI（1）
C code（4）
网络编程（7）
网站架构（8）
HTML（3）
linux（17）
tools（31）
java（19）
thrift（2）
行业动态（1）
asp（3）
sql server（10）
mysql（5）
职业生涯（24）
php（44）
C（17）
perl（0）
js（30）
Hacker（6）
未分配的博文（3）

文章存档

2017年（3）

2016年（18）

2015年（31）

2014年（18）

2013年（7）

2012年（8）

2011年（12）

2010年（30）

2009年（32）

2008年（57）

2007年（36）

我的朋友

相关博文

UTF-8汉字编码

分类：架构设计与优化

2015-03-05 00:03:13

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：

    Unicode编码(十六进制)　 UTF-8 字节流(二进制)
   000000 - 00007F         0xxxxxxx
   000080 - 0007FF         110xxxxx 10xxxxxx
   000800 - 00FFFF         1110xxxx 10xxxxxx 10xxxxxx

010000 - 10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8 编码的最大长度是4个字节。从上表可以看出，4字节模板有21个x，即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21 位。

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

例2：Unicode编码0x20C30在0x010000-0x10FFFF之间，使用用4字节模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字（不足21位就在前面补0）：0 0010 0000 1100 0011 0000，用这个比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

以下为汉字的编码范围（取自网络，未必正确，仅供参考）：

占3个字节的范围
    U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3      共 115 个
    U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95      共 213 个
    U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9      共 36 个
    U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5      共 7549 个
    U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA      共 44138 个
    U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99      共 105 个
   合计：52156 个

占4个字节的范围
   U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D      共 64029 个
   合计：64029 个

阅读(1811) | 评论(0) | 转发(0) |

上一篇：[php]多数据源串行分页算法

下一篇：nginx作为图片浏览前端cache配置示例

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6