Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1300397
  • 博文数量: 632
  • 博客积分: 2778
  • 博客等级: 大尉
  • 技术积分: 3387
  • 用 户 组: 普通用户
  • 注册时间: 2012-05-31 09:09
个人简介

123

文章分类

全部博文(632)

文章存档

2014年(36)

2013年(33)

2012年(563)

分类:

2012-06-15 10:53:50

原文地址:汉字编码 作者:bendeer

  • 汉字编码
    • 至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。
    • 简体中文自1980年代以来通常使用中华人民共和国国家标准总局公布的GB 2312-1980以及其后继的GBK和GB 18030-2000作为在计算机等电子通信设备上储存和交换汉字信息的编码系统。近年来CJK和与之向下兼容的Unicode跨语言编码集也逐渐得到广泛使用。GB 2312之后的大字符集均包含巨量正体字,因而往往并非仅可供简体中文使用。
    • GB 2312-1980
      • GB2312是汉字字符集和编码的代号,中文全称为“信息交换用汉字编码字符集”,由中华人民共和国国家标准总局发布,1981年5月1日实施。GB是“国标” 二字的汉语拼音缩写。GB2312字符集只收录简化字汉字,以及一般常用字母和符号,主要通行于中国大陆地区和新加坡等地。
      • GB2312 共收录有7445个字符,其中简化汉字6763个,字母和符号682个。GB2312将所收录的字符分为94个区,编号为01区至94区;每个区收录94 个字符,编号为01位至94位。GB2312的每一个字符都由与其唯一对应的区号和位号所确定。例如:汉字“啊”,编号为16区01位。
      • GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5 月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
      • GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
      • GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
      • GB2312 原始编码 (encoding) 是对所收录的每个字符都用两个字节 (byte) 表示。第一字节为“高字节”,由字符的区号值加上 32 而形成;第二字节为“低字节”,由字符的位号值加上 32 而形成。例如:汉字“啊”,编号为 16 区 01 位。它的高字节为 16 + 32 = 48 (0x30),低字节为 01 + 32 = 33 (0x21),合并而成的编码为 0x3021。在区位号值上加 32 的原因大慨是为了避开低值字节区间。
      • 由于 GB2312 原始编码与 ASCII 编码的字节有重叠,现在通行的 GB2312 编码是在原始编码的两个字节上各加 128 修改而形成。例如:汉字“啊”,编号为 16 区 01 位。它的原始编码为 0x3021,通行编码为 0xB0A1。如果不另加说明,GB2312 常指这种修改过的编码。
      • 对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。
      • GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
        举例来说,“啊”字是GB2312之中的第一个汉字,它的区位码就是1601。
          区号    字数    字符类别
           01      94    一般符号
           02      72    顺序号码
           03      94    拉丁字母
           04      83    日文片假名
           05      86    日文片假名
           06      48    希腊字母
           07      66    俄文字母
           08      63    汉语拼音符号
           09      76    图形符号
        10-15            备用区
        16-55    3755    一级汉字,以拼音为序
        56-87    3008    二级汉字,以笔划为序
        88-94            备用区参考

      • 参考

        • http://cuimingda.com/2008/12/gb2312.html
    • GBK
      • GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan11)中“扩”字的声母。GBK 来自中国国家标准代码GB 13000.1-93。
      • 1993年,Unicode 1.1版本推出,收录了中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。
      • 中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面”。
      • 由于GB 2312-80只收录了6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。中文电脑开发商,于是利用了GB 2312-80未有使用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。
      • 根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936字码表 (Code Page 936)的扩展(原来的CP936和GB 2312-80一模一样),最初出现于Windows 95简体中文版中,由于Windows产品的流行和在大陆广泛被使用,中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然 GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。
      • 中华人民共和国国家质量技术监督局于2000年3月17日推出了GB 18030-2000标准,以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。请参看GB 18030-2000。
      • 参考:


    • GB 18030
      • GB 18030,全称:国家标准GB 18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。
      • GB 18030主要有以下特点:
            * 采用多字节编码,每个字可以由1个、2个或4个字节组成。
            * 编码空间庞大,最多可定义161万个字符。
            * 支持中国国内少数民族的文字,不需要动用造字区。
      • 字节结构
        • 单字节,其值从0到0x7F。129 个码位
        • 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。23940 个码位
        • 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。1587600 个码位
      • 参考:



    • 繁体字标准
阅读(472) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~