Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1035884
  • 博文数量: 243
  • 博客积分: 3053
  • 博客等级: 中校
  • 技术积分: 2975
  • 用 户 组: 普通用户
  • 注册时间: 2009-05-02 21:11
文章分类

全部博文(243)

文章存档

2013年(2)

2012年(20)

2011年(5)

2010年(114)

2009年(102)

我的朋友

分类: WINDOWS

2012-03-30 18:14:53

字符集,字体,编码,代码页,输入法
UNICODE(国际通用字符集)
历史上有两个独立的创立单一字符集的尝试:一个是国际标准化组织的ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目。 1991年前后两个项目的参与者都认识到, 世界不需要两个不同的单一字符集。它们合并双方的工作成果并为创立一个单一编码表而协同工作。两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展。
《信息交换用汉字编码字符集--基本集》—即 国家标准 GB2312-80
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。
1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。

《GB2312-80》对 7445 个图形字符作了二进制数编码。

《CJK 统一汉字编码字符集》— ‍即 国家标准 GB13000.1
《CJK统一汉字编码字符集》— 国家标准 GB13000.1 是完全等同于国际标准《通用多八位编码字符集 (UCS)》 ISO10646.1。《GB13000.1》中最重要的也经常被采用的是其双字节形式的基本多文种平面。在这65536个码位的空间中,定义了几乎所有国家或地区的语言文字和符号。其中从0x4E00到 0x9FA5 的连续区域包含了 20902 个来自中国(包括台湾)、日本、韩国的汉字,称为 CJK (Chinese Japanese Korean) 汉字。CJK 是《GB2312-80》、《BIG5》等字符集的超集。
《信息交换用汉字编码字符集基本集的扩充》 — 即 国家标准GB18030-2000

2000年3月,国家信息产业部和质量技术监督局在北京联合发布了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,该标准于2000年12月31日强制执行。 GB 18030-2000 作为 GBK for Unicode 3.0 的更新而诞生,并且 作为GB2312-1980《信息交换用汉字编码字符集 基本集》的扩展,向下兼容
GB18030 编码是一二四字节变长编码:一字节部分从 0x0~0x7F 与ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从0x40~0x7E 以及0x80~0xFE,与 GBK标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有Unicode3.0码位。也就是说, GB18030 编码在码位空间上做到了与Unicode 标准一一对应,GB18030是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。
微软官方GB18030支持包下载地址:
《通用多八位编码字符集(UCS)》

国际标准ISO10646.1-1993定义了通用八位编码字符集(Universal Character Set, UCS),用于世界上各种语言的书面形式以及附加符号的表示、传输、交换、处理、存储、输入及显现。 UCS是所有其它字符集标准的一个超集,它保证也其它字符集双向兼容,即编码间相互转换不会丢失任何信息。UCS字符集U+0000到U+007F与US-ASCII是一致的。

1. UCS 的总体结构
UCS 编码字符集的总体结构是一个四维编码空间,它包含 00 ~ 7F 共 128 个三维组,每一个三维组中包含 00 ~ FF 共 256 个二维平面,每一个二维平面包含 00 ~ FF 共 256 个一维行,每行共 256 个字位(00 ~ FF),每个字位用一个字节二进制数表示。因此在 UCS 中每一个字符用 4 个二进制数编码,以确定每个字符在编码空间的组、平面、行和字位。上述四个 8 位二进制数编码形式称为 UCS 的四八位正则形式,记作 UCS-4。
2. 基本多文种平面
在UCS 编码空间中 00组的 00平面称为基本多文种平面。在此平面包含了字母文字、音节文字和表意文字中通常使用的字符以及各种符号和数字。
基本多文种平面的组编码为 00H。UCS 规定当正则形式的组、平面编码为 00H 时可以省略,因此安排在基本多文种平面上的字符可用两个字节的二进制数来表示,形成双八位编码字符集,记作 UCS-2。
基本多文种平面分成 A、I、O、R 四个区。
A 区:代码位置从 0000 ~ 4DFF,共 19903 个字位。此区用于字母文字、音节文字以及各种符号的编码,其中 0000 ~ 001F 和 007E ~ 009F 保留用于控制字符。
I 区:代码位置从 4E00 ~ 9FFF,共 20992 个字位。此区用于中、日、韩(CJK)统一的表意文字,即中国、日本、韩国等三国汉字的编码。
O 区:代码位置从 A000 ~ DFFF,共 16384 个字位。此区目前未用,留作未来的标准化。
R 区:代码位置从 E000 ~ FFFD,共 8190 个字位。此区是限制使用区,用于专用字符、变形显现形式和兼容字符的编码。
3. CJK 统一汉字的编码
在 I 区统一编码的汉字共 20902 个,按部首—比画排序。其中中国用汉字约 17000 个,源字集是 GB 基本集简化字,第一、三、五辅助集繁体字,现代汉语通用字表,邮电通信字符集,台湾地区的 CNS11643 《通用汉字标准交换码》,此外还吸收了香港用字 58 个,延边地区朝鲜族使用的“吏读”字 92 个。CJK 统一汉字编码字符集中日本用汉字和韩国用汉字源字集分别为日、韩两国的有关标准。
 
 
《BIG5》  
  BIG-5码收录汉字13053个,分为常用字和次常用字两部分,各部分中的汉字按笔画/部首排列。其中常用字5401个,包括台湾教育管理部门颁布的《常用汉字标准字体表》中的全部汉字4808个,台湾中小学教科书常用字587个,异体字6个;次常用字7652个,包括台湾教育管理部门颁布的《次常用汉字标准字体表》的全部汉字6341个,《罕用汉字标准字体表》中使用频率较高的字1311个。
  BIG-5码的编码范围是 0x8140~0xFE7E、0x81A1~0xFEFE,其中 0xA140~0xA17E、0xA1A1~0xA1FE 是图形符号区,0xA440~0xF97E、0xA4A1~0xF9FE 是汉字区。

汉字扩展内码规范— GBK
国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK(“国家标准扩展”的拼音缩写)。
汉字扩展内码规范--GBK 的目的是解决汉字收字不足、简繁同平面共存、简化代码体系间转换等汉字信息交换的瓶颈问题,并在保持已有应用软件兼容性的前提下,向最终的国际统一双字节字符集标准 ISO10646.1 迈进。
1.扩展的汉字内码规范的原则
与 《信息交换用汉字编码字符集--基本集》即国家标准 GB2312-80 的内码体系标准完全兼容。
在字汇一级支持 ISO 10466.1/《CJK统一汉字编码字符集》即国家标准 GB13000.1 的全部 ‍CJK 汉字。
非汉字符号同时涵盖大部分常用的BIG5 非汉字符号。
2.规范的名称与简称
中文名称:汉字内码规范
英文名称:Chinese Internal Code Specification
简称: GBK ( K 是“扩展”的汉语拼音第一个字母)
3.规范的内容
适用范围:
作为非 UCS (ISO 10646) 体系的代码页(Code Page),适用于中文信息的处理、交换、存储、显现、输入和输出。

。。。。。。
 
 
UNICODE与其他汉字符集的关系:
GB2312、GB13000.1、GB18030均为国家标准,而GBK是国家规范。GB2312编码汉字6763字,是在Windows 95出现以前,国内信息处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础上,将其字汇扩充至ISO 10646中的CJK 20902汉字,同时也就包容了台湾的工业标准Big5中的全部汉字,没有体系结构的变化。而GB18030则不然,它是在GBK的基础上做进一步扩充,不但把CJK-扩展A的6582汉字扩充进去,而且还改变了GBK的体系结构。尽管GB2312、BIG5、GBK在某种程度上依然尚存,但ISO 10646(GB13000/Unicode)已日渐成为主流编码。
CJK-扩展B的汉字编码与Unicode的Surrogate机制:
国际标准化组织在 ISO10646-2000 的基本平面(BMP 或者 Unicode 3.0, 下简称 Unicode)编入了27,564 汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),既是2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为CJK-扩展A。 同时国际标准化组织还在ISO10646-2000 的第二平面扩展了42,711汉字(又称为CJK-扩展B)。该42,711 汉字的编码表已基本确定,尽管不排除未来微小变动的可能性。也就是说,到目前为止Unicode已编码的汉字达七万多字。
CJK-扩展B 的42,711汉字编排在ISO10646-2000的第二平面,所以编码需要4个字节。为存取处理这些4字节字符,在Unicode 中引入了Surrogate 机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制, 在Unicode中用两个16位编码就可以对ISO10646-2000 第二平面中的汉字进行存取。Microsoft 从Windows2000 (在Windows 98, Windows ME 及 Windows NT4 中没有)开始对这样一种机制提供支持。只要有相应的输入法和字库并且在应用程序中给予相应的支持,就应该能够输入显示上述提到的汉字。但是,要想得到对Surrogate全面的支持,用户需先下载并安装Surrogate Package ( Surrogate支持包 )。
支持CJK-扩展B汉字显示的字体:
1、简体中文版Microsoft Office XP及更高版本附带了宋体-超大字符集中文字体 ,支持上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆、香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。换言之,它支持CJK-扩展A中的全部汉字和CJK-扩展B中的部分汉字。

2、繁体中文版Microsoft Office XP及更高版本则提供了支持超大字符集的细明体(MingLiU Ext-B 与 PMingLiU Ext-B),可以从已装有Office的电脑中单独找到该字体文件,复制到本机Windows系统下的Fonts文件夹中即可。需要注意的是,此字体全面支持CJK-扩展B中的42711字,但不支持CJK-扩展A中的6582字。  
海峰五笔UNICODE超大字符集字体支持包:
完美结合了大陆与港台的数种主流字体,支持GBK、GB-18030、CJK-B各大字符集内全部简、繁体汉字的显示, 通用于Windows 98/NT/2000/ME/XP/2003系统。安装此包之后,用宋体即可显示任何汉字。
下载地址: 。
海峰五笔下载地址:‍1.  2. http://culchina.net/software/SunWb.exe
关于汉字的制作,字模资料:
有些字体无法显示所有的 Unicode 字符。‍一般来讲,Microsoft Sans Serif 对于 Unicode 字符来说是一种好的选择。
‍UTF 代表“通用字符集转换格式”。UTF-8 是 8 位形式的 Unicode。

工具:
1,Windows有个系统工具叫做字符映射表,可以查看字体中的可用字符:开始--运行--charmap.
2,BabelMap【字符映射表/字体浏览工具】比Windows自带的好用?谁知道呢.最新版本的BabelMap支持Unicode6.0.
‍该软件可使用系统上安装的所有字体浏览 Unicode 标准中的所有字符,还带有拼音及部首检字法。
 
阅读(3199) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~