字符集问题的解决-travelsky2008-ChinaUnix博客

幽谷深潭

首页　| 　博文目录　| 　关于我

travelsky2008

博客访问： 190951
博文数量： 88
博客积分： 2000
博客等级：大尉
技术积分： 914
用户组：普通用户
注册时间： 2008-03-10 13:41

文章分类

全部博文（88）

生活情感（0）
嵌入式（1）
网络（1）
xml（2）
数据库（16）

HSQLDB（3）

MySQL（2）

Oracle（11）
操作系统（9）

Windows（1）

Ubuntu（1）

Solaris（7）
中间件（10）

IBMMQ（0）

Tuxedo（10）
configure/manage（1）
java（29）

Struts2（0）

Mina（0）

hibernate（0）

struts1（3）

web（5）

maven（7）

webservice（2）
c/c++（16）
perl（1）
python（2）
未分配的博文（0）

文章存档

2010年（2）

2009年（35）

2008年（51）

我的朋友

JVM

JVM启动后，JVM会设置一些系统属性以表明JVM的缺省区域。

user.language,user.region,file.encoding等。可以使用System.getProperties()详细查看所有的系统属性。

如在英文操作系统(如UNIX)下，可以使用如下属性定义强制指定JVM为中文环境 -Dclient.encoding.override=GBK -Dfile.encoding=GBK -Duser.language=zh -Duser.region=CN

GB2312-80，GBK，GB18030-2000 汉字字符集

GB2312-80 是在国内计算机汉字信息技术发展初始阶段制定的，其中包含了大部分常用的一、二级汉字，和 9 区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集，这也是最基本的中文字符集。其编码范围是高位0xa1－0xfe，低位也是 0xa1-0xfe；汉字从 0xb0a1 开始，结束于 0xf7fe；

GBK 是 GB2312-80 的扩展，是向上兼容的。它包含了 20902 个汉字，其编码范围是 0x8140-0xfefe，剔除高位 0x80 的字位。其所有字符都可以一对一映射到 Unicode 2.0，也就是说 JAVA 实际上提供了 GBK 字符集的支持。这是现阶段 Windows 和其它一些中文操作系统的缺省字符集，但并不是所有的国际化软件都支持该字符集，感觉是他们并不完全知道 GBK 是怎么回事。值得注意的是它不是国家标准，而只是规范。随着 GB18030-2000国标的发布，它将在不久的将来完成它的历史使命。

GB18030-2000(GBK2K) 在 GBK 的基础上进一步扩展了汉字，增加了藏、蒙等少数民族的字形。GBK2K 从根本上解决了字位不够，字形不足的问题。它有几个特点，

它并没有确定所有的字形，只是规定了编码范围，留待以后扩充。

编码是变长的，其二字节部分与 GBK 兼容；四字节部分是扩充的字形、字位，其编码范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39。

UTF-8/UTF-16/UTF-32

UTF，即Unicode Transformer Format，是Unicode代码点(code point)的实际表示方式，按其基本长度所用位数分为UTF-8/16/32。它也可以认为是一种特殊的外部数据编码，但能够与Unicode代码点做一一对应。

UTF-8是变长编码，每个Unicode代码点按照不同范围，可以有1-3字节的不同长度。

UTF-16长度相对固定，只要不处理大于\U200000范围的字符，每个Unicode代码点使用16位即2字节表示，超出部分使用两个UTF-16即4字节表示。按照高低位字节顺序，又分为UTF-16BE/UTF-16LE。

UTF-32长度始终固定，每个Unicode代码点使用32位即4字节表示。按照高低位字节顺序，又分为UTF-32BE/UTF-32LE。

UTF编码有个优点，即尽管编码字节数不等，但是不像gb2312/gbk编码一样，需要从文本开始寻找，才能正确对汉字进行定位。在UTF编码下，根据相对固定的算法，从当前位置就能够知道当前字节是否是一个代码点的开始还是结束，从而相对简单的进行字符定位。不过定位问题最简单的还是UTF-32，它根本不需要进行字符定位，但是相对的大小也增加不少。

TUXEDO/JOLT

JOLT对于传递的字符串需要用如下进行转码

new String(ls_tt.getBytes("GBK"),"iso8859-1")

对于返回的字符串

new String(error_message.getBytes("iso8859-1"),"GBK");

jolt 的系统属性 bea.jolt.encoding不应该设置,如果设置,JSH会报告说错误的协议.

JDBC

转换过程由JDBC Driver执行，取决于各JDBC数据库实现。对此经验尚积累不够。

1 对于ORACLE数据库，需要数据库创建时指定编码方式为gbk，否则会出现汉字转码错误

2 对于 SQL Server 2000 ，最好以nvarchar/nchar类型存放文本，即不存在中文/编码转换问题。

3 连接 Mysql，将 connectionString 设置成 encoding 为 gb2312：

String connectionString = "jdbc:mysql://localhost/test?useUnicode=true&characterEncoding=gb2312";

文件读写

外部数据如文件经过读写和转换两个步骤，转为jvm所使用字符。InputStream/OutputStream用于读写原始外部数据，Reader/Writer执行读写和转换两个步骤。

1 文件读写转换由java.io.Reader/Writer执行；输入输出流 InputStream/OutputStream 处理汉字不合适,应该首选使用Reader/Writer，如 FileReader/FileWriter。

2 FileReader/FileWriter使用JVM当前编码读写文件.如果有其它编码格式,使用InputStreamReader/OutputStreamWriter

3 PrintStream有点特殊，它自动使用jvm缺省编码进行转换。

阅读(1460) | 评论(0) | 转发(0) |

上一篇：Maven2.09 学习

下一篇：STL 学习

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6