Chinaunix首页 | 论坛 | 博客
  • 博客访问: 294161
  • 博文数量: 56
  • 博客积分: 3025
  • 博客等级: 中校
  • 技术积分: 534
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-06 17:28
个人简介

Honesty and diligence should be your eternal mates.

文章分类

全部博文(56)

文章存档

2012年(1)

2011年(27)

2010年(20)

2008年(8)

分类: LINUX

2008-10-06 20:29:45

1、编码:根据一定的协议或格式把模拟信息转换成比特流的过程。
2、常见的汉字编码体系:
   a、ASCII码:ASCII是“美国标准信息交换编码”的英文字头缩写,用从0到127的128个数字来代表信息的规范编码,其中包括33个控制码,一个空格码,和94个形象码。计算机中的文件分文本文件和二进制文件两种。
   b、区位码:国标表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行叫一个“区”,每个区有九十四个“位”。一个汉字在方阵中的坐标,称为该字的“区位码”。
   c、国标码:由于美标形象符的编码是从33到126,汉字区、位码如果各加上32,就会与美标形象码的范围重合。这两个数字(区+32,位+32)的十六进制放在一起称为该字的“国标码”,而与其相对应的两个美标符号称为国标符。
   d、GBK:扩展国标码(GBK为拼音首字母)。对多达2万多的简繁汉字进行了编码,简体版的Win95和Win98都是使用GBK作系统内码。GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
   e、BIG5:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用。
   f、HZ:是在Internet上广泛使用的一种汉字编码。“HZ”方案的特点,是以“纯国标”的中文与美标码混用。当一串美标码中间插入一段国标码的时候,我们便在国标码的前面加上~,后面加上~。和大部分英文文本处理软件兼容。
3、常见国际编码:
   a、ISO 10646:定义了一个 31 位的字符集。 然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位。这个UCS的16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)。 将被编码在16位BMP以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们。
   b、Unicode其实就是宽字节字符集,它对每个字符都固定使用两个字节即16位表示,于是当处理字符时,不必担心只处理半个字符。 目前,Unicode在网络、Windows系统和很多大型软件中得到应用。
4、Linux下利用iconv命令进行编码转换。
   iconv [选项] [文件名]
   选项:-f(--from-code) 原始编码名称
        -t(--to-code) 输出编码名称
        -l(--list) 列出所有已知字符集
        -c  从输出中忽略无效的字符
        -o(--output) Filename 输出到文件
        -s(--silent) 关闭警告
        --verbose 打印进度信息
        -?(--help)
        --usage 给出简要的用法信息
        -v(--version) 版本信息
阅读(1818) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~