Chinaunix首页 | 论坛 | 博客
  • 博客访问: 14148
  • 博文数量: 4
  • 博客积分: 170
  • 博客等级: 入伍新兵
  • 技术积分: 60
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-29 20:08
文章分类

全部博文(4)

文章存档

2011年(1)

2009年(3)

我的朋友
最近访客

分类:

2009-04-28 08:53:16

http://blog.csdn.net/MinistoneNap/archive/2006/12/04/1429838.aspx

   字符是一切文本处理中最基本的单位。文本里一般出现的是双字节的中文,有时也有单字节字符。要对中文文本进行分析,首先要掌握中文编码的规则。中文编码包括内码和外码两种,我们在对自然语言进行处理时,只需研究内码。中文字符有好几种编码体系,中国大陆一般用“国标码”(GB2312-80),中国台湾采用的是大五码(BIG-5),另外还有国际扩展码(GBK)。本文重点介绍国标码。
   国标码不光是汉字,还包括其他符号。具体如下:

  (1)汉字。共有汉字6763个,它分为两级,第一级汉字3755个,按拼音排序,约占近代文献汉字累计使用频度99.9%左右;二级汉字3008个,按部首、笔画排序

  (2)202个一般符号。其中包括1.~20.,(1)~(20),①~⑩,(-)~(+)等

  (3)22个数字。其中0~9共10个,Ⅰ~Ⅻ共12个

  (4)52个拉丁字母。其中大写字母A~Z 26个,小写字母a~z 26个

  (5)169个日文假名。其中平假名83个,片假名86个

  (6)48个希腊字母。其中大写字母Α~Ω24个,小写字母α~ω 24个

  (7)66个俄文字母。其中大写字母А~Я33个,小写字母а~я 33个

  (8)26个汉语拼音符号。包括带声调符号和其它符号的字母

  (9)37个汉语注音字母。ㄅ~ㄥ

   中文字符由两个字节组成,每个字节的ASCII码都大于127(因为每字节的最高为都定义为1)。中文字符码实质上是一种区位码,其编码空间是94*94,即有8836个码位,除了有7445个字符之外,还有1391个空位。具体的说,国标码的两个字节的ASCII值都是161-254之间的整数

   根据这个思想,我们便可以很容易的实现由机器自动生成国标码的字符。

   值得一提的是,国标码总共有6763个汉字,对于处理一般的现代汉语是够用的,但也有些特别的地名和人名用字在国标码中没有。这时往往会根据实际的需要采取相应的特殊措施。

阅读(361) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~