UTF-8与UNICODE的关系及代码转换-ztguang-ChinaUnix博客

张同光：Hello_everyone!ztguang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ztguang

博客访问： 6777854
博文数量： 1159
博客积分： 12444
博客等级：上将
技术积分： 12570
用户组：普通用户
注册时间： 2008-03-13 21:34

文章分类

全部博文（1159）

Android---Mobile（164）
编程-C/C++（104）
服务计算-物联网-（65）

物联网（2）

服务（1）

大数据（1）

云计算（5）

安全（4）
Web技术（101）
教材/著作（10）
linux内核（39）
Kali（1）
操作系统原理（16）
Linux操作系统RHE（268）

入门导读（3）

教学进度表-大纲（4）

Linux简介与安装（57）

Linux的用户界面（14）

系统管理（31）

磁盘与文件管理（48）

软件包管理（37）

组建Linux局域网（22）

提供Internet服务（21）

MySQL与PHP（12）

系统管理高级（4）

Shell编程（11）
嵌入式系统开发实（4）

第1章-嵌入式系统（0）

第2章-嵌入式系统（0）

第3章-嵌入式软件（1）

第4章-BootLoader（0）

第5章-Linux在ARM（0）

第6章-根文件系统（0）

第7章-嵌入式Linu（0）

第8章-嵌入式Linu（0）
信息安全技术实用（16）

第1章-信息安全概（2）

第2章-物理安全技（0）

第3章-基础安全技（0）

第4章-操作系统安（6）

第5章-网络安全技（4）

第6章-数据库系统（0）

第7章-应用安全技（1）

第8章-容灾与数据（0）
随想--&--相册（10）

相册（5）
论文（13）
IT & Linux文章（28）
教学--选修--考试（12）
嵌入式开发（9）
嵌入式实验（17）

skyeye（3）

qemu（9）
学生成果（16）
教育（48）
2009级嵌入式方向（51）
2010级嵌入式方向（80）
健身与保健（12）
信息发布（27）
嵌入式资料（14）
网文（34）
未分配的博文（0）

文章存档

2016年（126）

2015年（350）

2014年（56）

2013年（91）

2012年（182）

2011年（193）

2010年（138）

2009年（23）

我的朋友

相关博文

UTF-8与UNICODE的关系及代码转换

分类： C/C++

2012-04-27 19:14:03

http://blog.csdn.net/zonelive/article/details/544693

今天在用fontforge改字体，因为UTF-8与UNICODE的关系，专门
找了篇文章看，还写了几行代码验证自己的理解，并作为以后
修改字体的工具，我把它命名为UTF82UNICODE及由UTF-8编码转
换成UNICODE的意思，终于把UTF-8与UNICODE的关系基本搞清楚
了，是为文，见后。

所谓“utf-8”只是UCS Transformation Format，只是UNICODE
的一种表现形式，不等同于UNICODE，一般汉字在UNICODE中为
两个（双）字节表示，而我们看到实际保存的文档确是三个字
节表示一个汉字的，看看下表：
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8是一种变长度的表达方式，一般UNICODE为双字节（指UCS2）
但为了与以前的ASCII码兼容，ASCII为一个字节，于是就想出
了这种方法，在ASCII码的范围用一个字节表示，超出ASCII码
的范围就用多字节表示，这就形成了我们上面看到的UTF-8的表
示方法，这样的好处是当UNICODE文档中只有ASCII码时，保存
的文档都为一个字节，所以就是普通的ASCII文档无异，读入的
时候也是如此，所以能与以前的ASCII文档兼容。至于大于ASCII码的，就会由上面的第一字节的前几位表示该
unicode字符的长度，比如110xxxxxx前三位的二进制表示告诉
我们这是个2BYTE的UNICODE字符；1110xxxx是个三位的UNICODE
字符，依此类推，而首字节后面的字节都是以10开头，见上面
这是为了与ASCII码开头的0区分告诉我们这是个多字节UTF-8
编码的后续位。看上面的编码，我们将上面的x部分重新连起来
组成的数值就是实际的UNICODE码值了（排除10组成的标志位）。
下面是个我写的从UTF-8转换到UNICODE真实值的程序，
编译方法：
gcc utf82unicode.cpp -o utf82unicode -lstdc++
使用方法：
比如一个汉字‘新’字，它的UTF-8编码为：E696B0，为了知道
他的实际UNICODE编码，执行如下程序，
./utf82unicode E696B0
unicode: 65B0
上面程序的输出结果告诉我们UTF8：E696B0 对应UNICODE：65B0。

附录：CPP程序utf82unicode.cpp

#include
#include

// UTF-8的unicode表示方法到unicode的值转换函数
bool utf82unicode(unsigned int byte[], int index, int count, int& unicode) {

/* for (int i=index; i < count; ++i) { printf("byte[%d]:%0Xn",i, byte[i]); } printf("byte[index] & 0x80: %0Xn", byte[index] & 0x80); printf("byte[index] & 0xE0: %0Xn", byte[index] & 0xE0); printf("byte[index] & 0xF0: %0Xn", byte[index] & 0xF0); */ if (index >= count) return false; if ( (byte[index] & 0x80) == 0x0) // 一位 { unicode = byte[index]; } else if ((byte[index] & 0xE0) == 0xC0) // 两位 { if (index + 1 >= count ) return false; unicode = (((int)(byte[index] & 0x1F)) << 6) | (byte[ index + 1] & 0x3F); } else if ((byte[index] & 0xF0) == 0xE0) // 三位 { if (index + 2 >= count) return false; unicode = (((int)(byte[index] & 0x0F)) << 12) | (((int)(byte[index + 1] & 0x3F)) << 6) | (byte[index + 2] & 0x3F); } else if ((byte[index] & 0xF8) == 0xF0) // 四位 { if (index + 3 >= count) return false; unicode = (((int)(byte[index] & 0x07)) << 18) | (((int)(byte[index + 1] & 0x3F)) << 12) | (((int)(byte[index + 2] & 0x3F)) << 6) | (byte[index + 3] & 0x3F); } else if ((byte[index] & 0xFC) == 0xF8) // 五位 { if (index + 4 >= count) return false; unicode = (((int)(byte[index] & 0x03)) << 24) | (((int)(byte[index + 1] & 0x3F)) << 18) | (((int)(byte[index + 2] & 0x3F)) << 12) | (((int)(byte[index + 3] & 0x3F)) << 6) | (byte[index + 4] & 0x3F); } else if ((byte[index] & 0xFE) == 0xFC) // 六位 { if (index + 5 >= count) return false; unicode = (((int)(byte[index] & 0x01)) << 30) | (((int)(byte[index + 1] & 0x3F)) << 24) | (((int)(byte[index + 2] & 0x3F)) << 18) | (((int)(byte[index + 3] & 0x3F)) << 12) | (((int)(byte[index + 4] & 0x3F)) << 6) | (byte[index + 5] & 0x3F); } else { return false; } return true;

}

bool char2digist(char in, char&out)
{

if ('0' <= in && in <= '9') out = in - '0' + 0x0; else if ('A' <= in && in <= 'F') out = in - 'A' + 0xA; else if ('a' <= in && in <= 'f') out = in - 'a' + 0xa; else return false; return true;

}

bool widechar2hexbyte(char* ch, int index, int count, unsigned int& byte) {

char h, l; if (index + 1 < count) { if (char2digist(ch[index], h) && char2digist(ch[index + 1], l)) { byte = ((unsigned int)(h << 4)) | l; return true; } } else { if (char2digist(ch[index], l)) { byte = l; return true; } } return false;

}

int main(int argc, char* argv[])
{

int bi, i, len, unicode; char* hex; unsigned int bytes[10]; if (argc < 2) { printf("usage: utf82unicode [hex string]n"); return 1; } bi = 0, len = strlen(argv[1]); // printf("argv[1]:%s,len:%dn", argv[1], len); for (int i = 0; i < len && bi < 10; ++ i) { if (!widechar2hexbyte(argv[1], i++, len, bytes[bi++])) return 1; } unicode = 0; if (utf82unicode(bytes, 0, bi, unicode)) { printf("unicode: %0Xn", unicode); return 0; } return 1; }

阅读(7305) | 评论(0) | 转发(1) |

上一篇：发短信汉字编码 utf-8 UCS-2BE

下一篇：使用javascript将汉字转化成UNICODE编码

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6