Web pages can use a variety of different character encodings, like ASCII, Latin-1, or Windows 1252 or Unicode. Most encodings can only represent a few languages, but Unicode can represent thousands: from Arabic to Chinese to Zulu.
-- Official Google Blog
Unicode 是 ISO 制定的标准,其中 UCS 是2字节的 Unicode, 而 UCS-4 是4字节的 Unicode。
UTF-8 是 用于传输 Unicode 字符的编码方式。
字符在传输前由Unicode转换为UTF-8,转换方法如下图:
文章推荐:
(1)字符编码详解及由来:
http://www.phpweblog.net/fuyongjie/archive/2009/03/11/6374.html
(2)Unicode和UTF-8之间的转换详解:
http://hi.baidu.com/dustin_xiao/blog/item/2ab75b24c27ca32ed507426f.html
2010-06-11 补充:
1. UCS-4 在 UCS-2 之后产生,比 UCS-2 表示更多的文字。
2. UTF是用于传输Unicode字符的编码方式,分为UTF-8,UTF-16/32(LE/BE).
英文比例比较大,UTF-8可变长度,因此常用的是UTF-8。而UTF-16/32则是固定的16/32位长。
阅读(1460) | 评论(0) | 转发(0) |