偶然需要把一些繁体字的帮助页面转换成简体字的,网上搜索啦下,还真找到一个好用的工具:zh-autoconvert ,在有它的介绍,这个工具是Debian中文用户于广辉先生写的自动中文辨识转码程序包,提供两个应用程序autogb 和 autob5,在Debian下很好用apt-get install zh-autoconvert 就可以安装好。两个工具使用方法也很简单
标准的命令行为
autogb/autob5 [选项] <输入流 >输出流
选项有
-i 输入流的编码
--input 输入流的编码
-o 输出流的编码
--output 输出流的编码
这样就可以同时处理繁简体和编码问题啦。
此外 可选的编码有 gb, big5, hz, uni, utf7 或者 utf8
实际上一般简单使用可以采用如下的方法
autogb < 输入流(文件) >输出流(文件)
把输入流中的繁体字转换成简体字
autob5 < 输入流(文件) >输出流(文件)
把输入流中的简体字转换成繁体字
不过这个转换仅仅是字的转换,对于原来繁简体字中存在的多对一的情况没有特别处理,都是选用的常用字,所以一般繁转简问题不大,简转繁可能存在生造词(别字)情况,这点要注意。
另外找到了一个windows下的工具这个工具可以实现比较丰富的转换,特别还能定制一些字词的转换对应关系,也算是很方便的工具啦。
阅读(2804) | 评论(0) | 转发(0) |