Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1562621
  • 博文数量: 3500
  • 博客积分: 6000
  • 博客等级: 准将
  • 技术积分: 43870
  • 用 户 组: 普通用户
  • 注册时间: 2008-05-03 20:31
文章分类

全部博文(3500)

文章存档

2008年(3500)

我的朋友

分类:

2008-05-04 19:25:53

一起学习
I/O 转码 Java 现行的 IO 一律使用 Stream 的方式,相关的类别都放在 java.io 中。输出 binary 的资料使用 OutputStream 的子类别,输入 binary 的资料使用 InputStream 的子类别,输出文字的资料使用 Writer 的子类别,输入文字的资料使用 Reader 的子类别。 你可能会觉得很奇怪:「有必要用不同的方式来处理文字和 binary 吗?文字资料不也是 binary 的一种?」没错,其实他们非常类似,最大的差异在于,InputStream/OutputStream 会原封不动地传送资料,但是 Reader/Writer 会将资料当作文字对待,所以 Reader/Writer 在「必要时」会把(文字)资料转码。什么时候才是所谓的「必要时」呢? Java 的 Stream(包括 Reader 和 Writer)是可以互相串接的。当 Reader 的资料来源是另一个 Reader 时,不转码,当 Reader 的资料来源是一个 InputStream 时,就会转码。当 Writer 的资料去处是另一个 Writer 时,不转码,当 Writer 的资料去处是一个 OutputStream 时,就会转码。 由什么码转成什么码?这是可以指定的。因为转码只发生在 Reader/InputStream 的交界处与 Writer/OutputStream 的交界处,所以正是由 InputStreamReader 和 OutputStreamWriter 此二类别负责,下面两个 constructor 的第二个参数,正是用来指定转码的方式。 public InputStreamReader(InputStream in, String enc) throws UnsupportedEncodingException; public OutputStreamWriter(OutputStream out, String enc) throws UnsupportedEncodingException; InputStreamReader 负责将 enc 的编码方式转成 Unicode(因为资料是从「外部」送过来给「内部」的),OutputStreamWriter 负责将 Unicode 的编码方式转成 enc(因为资料要从「内部」送给「外部」)。JRE 内部当然都一定是用 Unicode 编码,而外部的编码就不一定,要看当时的环境为何。你可以透过 getEncoding() 的 method,来得知 InputStreamReader 与 OutputStreamWriter 的编码方式。 请注意:即使你没用到 InputStreamReader 与 OutputStreamWriter,只有用到其它的 Reader 和 Writer,但是这些 Reader 和 Writer 内部也很有可能(但非绝对)是直接或间接通到 InputStreamReader 与 OutputStreamWriter。比方说:FileReader 内部其实是透过一个 InputStreamReader 的中介来将资料从 FileInputStream 取过来的,此时 InputStreamReader 的转码方式是采用 OS 的文字编码(以繁体中文的 Windows 为例,就是「MS950」)转成 Unicode。 如果你清楚地知道你要读写的档案(或资料来源 / 去处)是采用某种编码方式,你也可以主动指定编码方式。但是,请记得抓取可能导致的 UnsupportedEncodingException,并务必处理之,不可对此例外置之不理,因为该 JRE 有可能没有附上此种编码表(也有可能你的编码名称给错)。 档案 I/O 转码 如果你是在泰文版的 Windows 上,想读取用 MS950 编码的繁体中文文字文件,你就必须主动指定编码,不可以直接用 FileReader,否则无法成功读取。方法如下: FileInputStream fis = new FileInputStream(fileName); InputStreamReader reader = new InputStreamReader(fis, "MS950"); 然后,透过 Reader 读出来的就会是正确的中文。 网络 I/O 转码 如果你的网络程序采用 TCP,那么你可以透过 Socket 类别所提供的 getInputStream() 和 getOutputStream() 来得到 InputStream 和 OutputStream 对象。如果你是在泰文版的 Windows 上,想读取用 MS950 编码的繁体中文文字 TCP 网络串流,你可以用类似上面的技巧来转码。方法如下: InputStream is = mySocket.getInputStream(); InputStreamReader reader = new InputStreamReader(is, "MS950"); 如果你的网络程序采用 UDP,你必须把中文字符串转成(或转自)byte 数组。请看下一节「 字符串和 byte 数组的转码 」。 如果你的网络程序采用 RMI,那你完全不用为这部分的转码操心,字符串直接用 Unicode 在网络上传递给另一个 JRE,不需要转码。 保持刑案现场 如果你不知道你的 I/O 资料来源或去处是用何种编码方式,那么你最好不要用 Reader 和 Writer,而应该直接用 InputStream 和 OutputStream,因为与其被 Reader 和 Writer 胡乱编码之后造成信息遗失或错乱,不如保持资料的完整不变,留待以后进一步解读。 字符串和 byte 数组的转码 java.lang.String 类别是 Java 字符串对象的类别,Java 字符串对象既然是活在 JRE 内部,当然就一定是用 Unicode 编码。如果你需要将 String 对象和 byte 数组互转,你可以使用: String(byte[] bytes, int offset, int length, String enc); 或 String(byte[] bytes, String enc); 来将用 enc 编码的 byte 数组,转成 Unicode 的 String 对象。你也可以使用 String 对象所提供的: byte[] getBytes(String enc) 来将 String 对象转成 byte 数组。 另外,你也可以透过 ByteArrayInputStream 或 ByteArrayOutputStream 串接到 InputStreamReader 或 OutputStreamWriter,来达到转码的目的。 下载本文示例代码


Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)Java 繁体中文处理完全攻略(二)
阅读(214) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~