Java 繁体中文处理完全攻略（二）-dongdongt-ChinaUnix博客

IT人的博客

首页　| 　博文目录　| 　关于我

dongdongt

博客访问： 1562621
博文数量： 3500
博客积分： 6000
博客等级：准将
技术积分： 43870
用户组：普通用户
注册时间： 2008-05-03 20:31

文章分类

全部博文（3500）

全部文章（3500）
未分配的博文（0）

文章存档

2008年（3500）

我的朋友

最近访客

推荐博文

Java 繁体中文处理完全攻略（二）

分类：

2008-05-04 19:25:53

一起学习

I/O 转码 Java 现行的 IO 一律使用 Stream 的方式，相关的类别都放在 java.io 中。输出 binary 的资料使用 OutputStream 的子类别，输入 binary 的资料使用 InputStream 的子类别，输出文字的资料使用 Writer 的子类别，输入文字的资料使用 Reader 的子类别。你可能会觉得很奇怪：「有必要用不同的方式来处理文字和 binary 吗？文字资料不也是 binary 的一种？」没错，其实他们非常类似，最大的差异在于，InputStream/OutputStream 会原封不动地传送资料，但是 Reader/Writer 会将资料当作文字对待，所以 Reader/Writer 在「必要时」会把（文字）资料转码。什么时候才是所谓的「必要时」呢？ Java 的 Stream（包括 Reader 和 Writer）是可以互相串接的。当 Reader 的资料来源是另一个 Reader 时，不转码，当 Reader 的资料来源是一个 InputStream 时，就会转码。当 Writer 的资料去处是另一个 Writer 时，不转码，当 Writer 的资料去处是一个 OutputStream 时，就会转码。由什么码转成什么码？这是可以指定的。因为转码只发生在 Reader/InputStream 的交界处与 Writer/OutputStream 的交界处，所以正是由 InputStreamReader 和 OutputStreamWriter 此二类别负责，下面两个 constructor 的第二个参数，正是用来指定转码的方式。 public InputStreamReader(InputStream in, String enc) throws UnsupportedEncodingException; public OutputStreamWriter(OutputStream out, String enc) throws UnsupportedEncodingException; InputStreamReader 负责将 enc 的编码方式转成 Unicode（因为资料是从「外部」送过来给「内部」的），OutputStreamWriter 负责将 Unicode 的编码方式转成 enc（因为资料要从「内部」送给「外部」）。JRE 内部当然都一定是用 Unicode 编码，而外部的编码就不一定，要看当时的环境为何。你可以透过 getEncoding() 的 method，来得知 InputStreamReader 与 OutputStreamWriter 的编码方式。请注意：即使你没用到 InputStreamReader 与 OutputStreamWriter，只有用到其它的 Reader 和 Writer，但是这些 Reader 和 Writer 内部也很有可能（但非绝对）是直接或间接通到 InputStreamReader 与 OutputStreamWriter。比方说：FileReader 内部其实是透过一个 InputStreamReader 的中介来将资料从 FileInputStream 取过来的，此时 InputStreamReader 的转码方式是采用 OS 的文字编码（以繁体中文的 Windows 为例，就是「MS950」）转成 Unicode。如果你清楚地知道你要读写的档案（或资料来源 / 去处）是采用某种编码方式，你也可以主动指定编码方式。但是，请记得抓取可能导致的 UnsupportedEncodingException，并务必处理之，不可对此例外置之不理，因为该 JRE 有可能没有附上此种编码表（也有可能你的编码名称给错）。档案 I/O 转码如果你是在泰文版的 Windows 上，想读取用 MS950 编码的繁体中文文字文件，你就必须主动指定编码，不可以直接用 FileReader，否则无法成功读取。方法如下： FileInputStream fis = new FileInputStream(fileName); InputStreamReader reader = new InputStreamReader(fis, "MS950"); 然后，透过 Reader 读出来的就会是正确的中文。网络 I/O 转码如果你的网络程序采用 TCP，那么你可以透过 Socket 类别所提供的 getInputStream() 和 getOutputStream() 来得到 InputStream 和 OutputStream 对象。如果你是在泰文版的 Windows 上，想读取用 MS950 编码的繁体中文文字 TCP 网络串流，你可以用类似上面的技巧来转码。方法如下： InputStream is = mySocket.getInputStream(); InputStreamReader reader = new InputStreamReader(is, "MS950"); 如果你的网络程序采用 UDP，你必须把中文字符串转成（或转自）byte 数组。请看下一节「字符串和 byte 数组的转码」。如果你的网络程序采用 RMI，那你完全不用为这部分的转码操心，字符串直接用 Unicode 在网络上传递给另一个 JRE，不需要转码。保持刑案现场如果你不知道你的 I/O 资料来源或去处是用何种编码方式，那么你最好不要用 Reader 和 Writer，而应该直接用 InputStream 和 OutputStream，因为与其被 Reader 和 Writer 胡乱编码之后造成信息遗失或错乱，不如保持资料的完整不变，留待以后进一步解读。字符串和 byte 数组的转码 java.lang.String 类别是 Java 字符串对象的类别，Java 字符串对象既然是活在 JRE 内部，当然就一定是用 Unicode 编码。如果你需要将 String 对象和 byte 数组互转，你可以使用： String(byte[] bytes, int offset, int length, String enc); 或 String(byte[] bytes, String enc); 来将用 enc 编码的 byte 数组，转成 Unicode 的 String 对象。你也可以使用 String 对象所提供的： byte[] getBytes(String enc) 来将 String 对象转成 byte 数组。另外，你也可以透过 ByteArrayInputStream 或 ByteArrayOutputStream 串接到 InputStreamReader 或 OutputStreamWriter，来达到转码的目的。下载本文示例代码

Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）Java 繁体中文处理完全攻略（二）

阅读(214) | 评论(0) | 转发(0) |

上一篇：如何读取 8 位和 24 位的位图文件

下一篇：Java繁体中文处理完全攻略（一）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6