Chinaunix首页 | 论坛 | 博客
  • 博客访问: 412485
  • 博文数量: 65
  • 博客积分: 1491
  • 博客等级: 上尉
  • 技术积分: 702
  • 用 户 组: 普通用户
  • 注册时间: 2009-05-30 15:57
文章分类
文章存档

2011年(6)

2010年(12)

2009年(47)

我的朋友

分类: 系统运维

2010-02-03 13:17:45


  Web pages can use a variety of different character encodings, like ASCII, Latin-1, or Windows 1252 or Unicode. Most encodings can only represent a few languages, but Unicode can represent thousands: from Arabic to Chinese to Zulu.
  -- Official Google Blog

Unicode 是 ISO 制定的标准,其中 UCS 是2字节的 Unicode, 而 UCS-4 是4字节的 Unicode。
UTF-8 是 用于传输 Unicode 字符的编码方式。
字符在传输前由Unicode转换为UTF-8,转换方法如下图:
   

文章推荐:
(1)字符编码详解及由来:
     http://www.phpweblog.net/fuyongjie/archive/2009/03/11/6374.html
(2)Unicode和UTF-8之间的转换详解:
     http://hi.baidu.com/dustin_xiao/blog/item/2ab75b24c27ca32ed507426f.html

2010-06-11 补充:
1. UCS-4 在 UCS-2 之后产生,比 UCS-2 表示更多的文字。
2. UTF是用于传输Unicode字符的编码方式,分为UTF-8,UTF-16/32(LE/BE).
   英文比例比较大,UTF-8可变长度,因此常用的是UTF-8。而UTF-16/32则是固定的16/32位长。

<--文章完-->
阅读(1460) | 评论(0) | 转发(0) |
0

上一篇:long long int

下一篇:DIY给路由器刷机

给主人留下些什么吧!~~