构建 GB2312 汉字库的 unicode 码表-cdutlibing-ChinaUnix博客

vc++ c++ c 程序开发（vc学习园地cdutlibing.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cdutlibing

博客访问： 9833560
博文数量： 1227
博客积分： 10026
博客等级：上将
技术积分： 20273
用户组：普通用户
注册时间： 2008-01-16 12:40

文章分类

全部博文（1227）

心得感想（0）
test（0）
COM技术（134）

MS Office中的COM（13）

IE编程（12）

ActiveX控件应用（6）

ActiveX控件开发（14）

OLE Automation（3）

WTL（10）

ATL（30）

COM技术_COM_DCO（46）
新闻（572）
工具与产品（0）

设计工具（0）

发布工具（0）

测试工具（0）

调试工具（0）

开发工具（0）
技术英语（0）
标准与规范（0）
程序员话题（0）
开发新闻与技术展（7）
软件工程（19）
硬件与嵌入开发（14）
VC环境与编译调试（21）
XML（17）
脚本语言（3）
WEB Services（1）
.NET平台（50）

应用开发（16）

系统安全（13）

公共语言运行时（21）
文件系统（21）

文件格式（2）

文件与目录对话框（4）

驱动器与磁盘信息（1）

文件操作_拷贝_查（14）
WINDOWS系统（143）

其它（24）

NT服务（7）

注册表（5）

剪贴板（2）

Shell编程（10）

驱动程序开发（11）

钩子HOOK（7）

消息系统（11）

多任务_多进程_（25）

DLL（16）

WIN32 API（25）
数据库（47）

数据库技术_SQL索（4）

Access（3）

Oracle（5）

SQL Server（8）

ODBC（27）
网络与通信（79）

网络安全（7）

通信协议（15）

RAS拨号上网（1）

MODEM通信（1）

并行通信（2）

串行通信（11）

局域网（4）

Internet与WEB服（17）

WinSock（21）
图形、图像与多媒（52）

游戏开发（4）

图形算法（8）

OpenGL（2）

DirectX（5）

视频技术（2）

音频技术（9）

图形存取（6）

图像格式（2）

字体与GDI（5）

位图与调色板（9）
WINDOWS窗口视图（28）

报表与打印（7）

高级用户界面（7）

窗口管理（6）

视图分割与停靠（3）

多文档界面（5）

单文档界面（0）

对话框（0）
WINDOWS标准界面（0）

其它控件（0）

数据表格控件（0）

进度条（0）

列表控件（0）

树型控件（0）

静态控件（0）

属性页（0）

组合框（0）

多功能编辑控件（0）

编辑控件（0）

状态条（0）

工具提示（0）

工具条（0）

菜单（0）

按钮（0）
一般性编程问题（0）

C++、MFC（0）

杂项（0）

Samples（0）

加解密（0）

常用算法与数据结（0）

日期与时间（0）

字符串处理（0）

STL（0）
未分配的博文（19）

文章存档

2010年（1）

2008年（1226）

我的朋友

相关博文

构建 GB2312 汉字库的 unicode 码表

分类： C/C++

2008-04-23 22:02:31

构建 GB2312 汉字库的 unicode 码表

作者：乾坤一笑

　　构建 GB2312 汉字库的 unicode 码表嵌入式系统总离不了处理汉字。一般汉字的处理方法是（以手机接受短信为例）：比如你收到了一封短信，该短信解码后是按照 UTF-16 表示的，那么我们需要根据每一个汉字的unicode 码找到它在 GB2312 库中的位置，然后再用对应的点阵数据在屏幕上显示出来。
　　于是乎，必须有一种手段将 unicode 码和汉字字模的数据对应起来。最常用的手段是做一个 unicode 码表，在该数组中查找到匹配的 unicode 码后，用匹配的 index（数组索引）值在另外一个由该 index 值对应的字模记录的数组中的数据去显示。

----------------- 查表 ----------------- 同index -------------------
| 汉字的unicode码 | ==> | unicode码表数组 | =======> | 汉字字模数据数组 | ==> 显示输出
----------------- ----------------- -------------------

本文简要介绍一下如何生成 unicode 码表，其它相关的汉字处理技术不在本文的讨论范围之内。:)

用下面两个函数可以把 unicode 码表构造出来（*）：


void UnicodeToGB2312(unsigned char* pOut,unsigned short uData)

{

    WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL);

    return;

}     

 

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer)

{

    MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

    return;

}

一个简单的例子如下（随手写的一段代码，只是演示一下构造数组的过程，不要挑刺儿啊! ^_^ ）：


/*-----------------------------------------------*\

|  GB2312 unicode table constructor               |

|  author: Spark Song                             ||  file  : build_uni_table.c                      |

|  date  : 2005-11-18                             |

\*-----------------------------------------------*/



#include 

#include 





void UnicodeToGB2312(unsigned char* pOut,unsigned short uData);

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer);

void construct_unicode_table();



int main(int argc, char *argv[])

{

	construct_unicode_table();

	return 0;

}



void construct_unicode_table()

{

    #define GB2312_MATRIX   (94)

    #define DELTA           (0xA0)

    #define FONT_ROW_BEGIN (16    DELTA)

    #define FONT_ROW_END   (87   DELTA)

    #define FONT_COL_BEGIN (1    DELTA)

    #define FONT_COL_END   (GB2312_MATRIX   DELTA)

    #define FONT_TOTAL     (72 * GB2312_MATRIX)



    int i, j;

    unsigned char   chr[2];

    unsigned short  uni;

    unsigned short  data[FONT_TOTAL] = {0};

    int index = 0;

    unsigned short buf;



    //生成unicode码表

    for (i=FONT_ROW_BEGIN; i<=FONT_ROW_END; i  )

        for(j=FONT_COL_BEGIN; j<=FONT_COL_END; j  )

        {

            chr[0] = i; 

            chr[1] = j;

            Gb2312ToUnicode(&uni, chr);

            data[index] = uni; index  ;

        }





   //排个序，以后检索的时候就可以用binary-search了

    for (i=0;idata[j])

            {

                buf = data[i]; 

                data[i] = data[j];

                data[j] = buf;

            }            

    

    //输出到STD_OUT

    printf("const unsigned short uni_table[]={\n");



    for (i=0; i Row:%.2d Col:%.2d */\n", 

                uni, 

                i==index-1?" ":",",

                chr[0],

                chr[1],

                chr[0] - DELTA,

                chr[1] - DELTA

                );

    }



    printf("};\n");

    return ;

}





void UnicodeToGB2312(unsigned char* pOut,unsigned short uData)

{

    WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL);

    return;

}     

 

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer)

{

    MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

    return;

}

用 VC 编译后，在 DOS 中执行：

build_uni_table.exe > report.txt

可以得到如下的txt文件：


const unsigned short  uni_table[]={

    0x4E00, /* GB2312 Code: 0xD2BB ==> Row:50 Col:27 */

    0x4E01, /* GB2312 Code: 0xB6A1 ==> Row:22 Col:01 */

    0x4E03, /* GB2312 Code: 0xC6DF ==> Row:38 Col:63 */

    0x4E07, /* GB2312 Code: 0xCDF2 ==> Row:45 Col:82 */

... ...

    0x9F9F, /* GB2312 Code: 0xB9EA ==> Row:25 Col:74 */

    0x9FA0, /* GB2312 Code: 0xD9DF ==> Row:57 Col:63 */

    0xE810, /* GB2312 Code: 0xD7FA ==> Row:55 Col:90 */

    0xE811, /* GB2312 Code: 0xD7FB ==> Row:55 Col:91 */

    0xE812, /* GB2312 Code: 0xD7FC ==> Row:55 Col:92 */

    0xE813, /* GB2312 Code: 0xD7FD ==> Row:55 Col:93 */

    0xE814  /* GB2312 Code: 0xD7FE ==> Row:55 Col:94 */

};

然后把这个生成的数组copy到项目代码中使用就okey了。hoho，其实在开发中编写代码来构造代码的机会很多，coder不用coding辅助自己开发多浪费啊～ :)

：关于内码转换的相关知识可参考 VCKBASE 电子杂志上的两篇文章：

吴康彬 “UTF-8与GB2312之间的互换”
李天助 “《UTF-8与GB2312之间的互换》的改进”

阅读(417) | 评论(0) | 转发(0) |

上一篇：如何在 Windows NT、Windows 2000 和 Windows XP 中使用VDMDBG函数？

下一篇：如何“干净地”终止 Win32 中的应用程序

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6