Unicode和UTF8相互转换-cdlda-ChinaUnix博客

cdlda

首页　| 　博文目录　| 　关于我

cdlda

博客访问： 1577797
博文数量： 237
博客积分： 5139
博客等级：大校
技术积分： 2751
用户组：普通用户
注册时间： 2008-11-18 14:48

文章分类

全部博文（237）

UBuntu&Linux（23）
Java语言（25）
Android（72）
网络协议（5）
Autoconf/Automa（3）

QT（2）
未分配的博文（109）

文章存档

2016年（1）

2012年（4）

2011年（120）

2010年（36）

2009年（64）

2008年（12）

我的朋友

最近访客

推荐博文

Unicode和UTF8相互转换

分类：

2010-07-24 12:45:03

以下是Unicode和UTF-8之间的转换关系表：
U-00000000 - U-0000007F: 0xxxxxxx //没有1表示只有1个字节
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx //前面2个1表示由2个字节
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx //前面3个1表示由3个字节
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx //依次类推
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

Unicode 转UTF8流的转换程序：
Input: unsigned integer c - the code point of the character to be encoded （输入一个unicode值）
Output: byte b1, b2,b3, b4 - the encoded sequence of bytes (输出四个BYTE值）
Algorithm（算法）:
if (c<0x80)
b1 = c>>0 & 0x7F | 0x00
b2 = null
b3 = null
b4 = null
else if (c<0x0800)
b1 = c>>6 & 0x1F | 0xC0
b2 = c>>0 & 0x3F | 0x80
b3 = null
b4 = null
else if (c<0x010000)
b1 = c>>12 & 0x0F | 0xE0
b2 = c>>6 & 0x3F | 0x80
b3 = c>>0 & 0x3F | 0x80
b4 = null
else if (c<0x110000)
b1 = c>>18 & 0x07 | 0xF0
b2 = c>>12 & 0x3F | 0x80
b3 = c>>6 & 0x3F | 0x80
b4 = c>>0 & 0x3F | 0x80
end if

UTF8流转Unicode的转换程序
1. 判断一个utf8字节中1的个数，有多少个1，就需要多少个utf8字节
2. 最后按照转化表进行处理

阅读(903) | 评论(0) | 转发(0) |

上一篇：symbian的IAP和ALR的概念

下一篇：base64编码

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6