《UTF-8与GB2312之间的互换》的改进-cdutlibing-ChinaUnix博客

vc++ c++ c 程序开发（vc学习园地cdutlibing.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cdutlibing

博客访问： 9833859
博文数量： 1227
博客积分： 10026
博客等级：上将
技术积分： 20273
用户组：普通用户
注册时间： 2008-01-16 12:40

文章分类

全部博文（1227）

心得感想（0）
test（0）
COM技术（134）

MS Office中的COM（13）

IE编程（12）

ActiveX控件应用（6）

ActiveX控件开发（14）

OLE Automation（3）

WTL（10）

ATL（30）

COM技术_COM_DCO（46）
新闻（572）
工具与产品（0）

设计工具（0）

发布工具（0）

测试工具（0）

调试工具（0）

开发工具（0）
技术英语（0）
标准与规范（0）
程序员话题（0）
开发新闻与技术展（7）
软件工程（19）
硬件与嵌入开发（14）
VC环境与编译调试（21）
XML（17）
脚本语言（3）
WEB Services（1）
.NET平台（50）

应用开发（16）

系统安全（13）

公共语言运行时（21）
文件系统（21）

文件格式（2）

文件与目录对话框（4）

驱动器与磁盘信息（1）

文件操作_拷贝_查（14）
WINDOWS系统（143）

其它（24）

NT服务（7）

注册表（5）

剪贴板（2）

Shell编程（10）

驱动程序开发（11）

钩子HOOK（7）

消息系统（11）

多任务_多进程_（25）

DLL（16）

WIN32 API（25）
数据库（47）

数据库技术_SQL索（4）

Access（3）

Oracle（5）

SQL Server（8）

ODBC（27）
网络与通信（79）

网络安全（7）

通信协议（15）

RAS拨号上网（1）

MODEM通信（1）

并行通信（2）

串行通信（11）

局域网（4）

Internet与WEB服（17）

WinSock（21）
图形、图像与多媒（52）

游戏开发（4）

图形算法（8）

OpenGL（2）

DirectX（5）

视频技术（2）

音频技术（9）

图形存取（6）

图像格式（2）

字体与GDI（5）

位图与调色板（9）
WINDOWS窗口视图（28）

报表与打印（7）

高级用户界面（7）

窗口管理（6）

视图分割与停靠（3）

多文档界面（5）

单文档界面（0）

对话框（0）
WINDOWS标准界面（0）

其它控件（0）

数据表格控件（0）

进度条（0）

列表控件（0）

树型控件（0）

静态控件（0）

属性页（0）

组合框（0）

多功能编辑控件（0）

编辑控件（0）

状态条（0）

工具提示（0）

工具条（0）

菜单（0）

按钮（0）
一般性编程问题（0）

C++、MFC（0）

杂项（0）

Samples（0）

加解密（0）

常用算法与数据结（0）

日期与时间（0）

字符串处理（0）

STL（0）
未分配的博文（19）

文章存档

2010年（1）

2008年（1226）

我的朋友

相关博文

《UTF-8与GB2312之间的互换》的改进

分类： C/C++

2008-04-23 21:58:06

《UTF-8与GB2312之间的互换》的改进

作者：

　　最近，在做一个小程序的时候，突然遇到了汉字编码转换问题。关于如何在UTF-8与GB2312之间转换的问题。在VC知识库里看到吴康彬的文章《UTF-8与GB2312之间的互换》，文章浅显易懂，代码也不长。省了我不少的找资料的时间。在此谢谢了。：）
　　在看代码的过程中，吴康彬用了许多字符串的转换，来进行2进制的运算，这就涉及到大量的IO操作，效率肯定比较低。而且编码转换的工作量往往非常大，因此效率问题很重要。而且，代码里，有许多，内存泄漏问题，可能是作者过于重视实现，没有注意这些细节问题。
　　闲话少说，开始正题。在UTF-8,与UNICODE之间转换的时候，用二进制运算，代替了字符串的转换。UTF-8一个汉字，用3个字节，而UNICODE用2个字节；对应关系如下：

UTF-8编码：         

      [1,1,1,0,A5,A6,A7,A8],    [1,0,B3,B4,B5,B6,B7,B8],            

      [1,0,C3,C4,C5,C6,C7,C8];

对应的UNICODE编码：

[A5,A6,A7,A8,B3,B4,B5,B6],         

      [B7,B8,C3,C4,C5,C6,C7,C8]

因此我们只需进行位操作，即可达到目的；如：

      // 把UTF-8转换成Unicode

      void CChineseCodeLib::UTF_8ToUnicode(WCHAR* pOut,char *pText)

      {

     	 char* uchar = (char *)pOut;

     	

     	 uchar[1] = ((pText[0] & 0x0F) << 4)   ((pText[1] >> 2) & 0x0F);

     	 uchar[0] = ((pText[1] & 0x03) << 6)   (pText[2] & 0x3F);

     

     	 return;

      }


     // Unicode 转换成UTF-8 

     void CChineseCodeLib::UnicodeToUTF_8(char* pOut,WCHAR* pText)

     {

	      // 注意 WCHAR高低字的顺序,低字节在前，高字节在后

	      char* pchar = (char *)pText;



	      pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));

	      pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2))   ((pchar[0] & 0xC0) >> 6);

	      pOut[2] = (0x80 | (pchar[0] & 0x3F));

	

	      return;

     }


     // 把Unicode 转换成 GB2312 

     void CChineseCodeLib::UnicodeToGB2312(char* pOut,unsigned short uData)

     {

	     WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(WCHAR),NULL,NULL);

	     return;

     }


     // GB2312 转换成　Unicode

     void CChineseCodeLib::Gb2312ToUnicode(WCHAR* pOut,char *gbBuffer)

     {

	     ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

	     return;

     }


     //GB2312 转为 UTF-8

     void CChineseCodeLib::GB2312ToUTF_8(string& pOut,char *pText, int pLen)

     {

           char buf[4];

           char* rst = new char[pLen   (pLen >> 2)   2];

           

           memset(buf,0,4);

           memset(rst,0,pLen   (pLen >> 2)   2);

           

           int i = 0;

           int j = 0;      

           while(i < pLen)

           {

                   //如果是英文直接复制就可以

                   if( *(pText   i) >= 0)

                   {

                           rst[j  ] = pText[i  ];

                   }

                   else

                   {

                           WCHAR pbuffer;

                           Gb2312ToUnicode(&pbuffer,pText i);

                           

                           UnicodeToUTF_8(buf,&pbuffer);

                           

                           unsigned short int tmp = 0;

                           tmp = rst[j] = buf[0];

                           tmp = rst[j 1] = buf[1];

                           tmp = rst[j 2] = buf[2];

                           

                           

                           j  = 3;

                           i  = 2;

                   }

           }

           rst[j] = ''\0'';

   

           //返回结果

           pOut = rst;             

           delete []rst;   

           

           return;

     }


     //UTF-8 转为 GB2312

     void CChineseCodeLib::UTF_8ToGB2312(string &pOut, char *pText, int pLen)

     {

         char * newBuf = new char[pLen];

         char Ctemp[4];

         memset(Ctemp,0,4);



         int i =0;

         int j = 0;

         

         while(i < pLen)

         {

                if(pText[i] > 0)

                {

                        newBuf[j  ] = pText[i  ];                       

                }

                else                 

                {

                        WCHAR Wtemp;

                        UTF_8ToUnicode(&Wtemp,pText   i);

                

                        UnicodeToGB2312(Ctemp,Wtemp);

                    

                        newBuf[j] = Ctemp[0];

                        newBuf[j   1] = Ctemp[1];



                        i  = 3;    

                        j  = 2;   

                }

         }

         newBuf[j] = ''\0'';

         

         pOut = newBuf;

         delete []newBuf;

         

         return; 

     }

　　代码在WIN2K,VC 60 下编译，测试通过. 就说这么多吧，具体的大家看代码吧。草草的写的，大家莫笑，欢迎大家一起讨论；觉觉罗。。。。

阅读(456) | 评论(0) | 转发(0) |

上一篇：用WTL实现类似flashget的界面

下一篇：DOM应用---遍历网页中的元素

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6