Chinaunix首页 | 论坛 | 博客
  • 博客访问: 686368
  • 博文数量: 95
  • 博客积分: 1773
  • 博客等级: 上尉
  • 技术积分: 1653
  • 用 户 组: 普通用户
  • 注册时间: 2007-08-17 23:28
文章分类
文章存档

2018年(2)

2017年(10)

2016年(7)

2015年(48)

2014年(2)

2013年(2)

2012年(2)

2011年(7)

2010年(7)

2009年(3)

2008年(1)

2007年(4)

分类: LINUX

2009-01-09 10:32:35

偶然需要把一些繁体字的帮助页面转换成简体字的,网上搜索啦下,还真找到一个好用的工具:zh-autoconvert ,在有它的介绍,这个工具是Debian中文用户于广辉先生写的自动中文辨识转码程序包,提供两个应用程序autogb 和 autob5,在Debian下很好用apt-get install zh-autoconvert 就可以安装好。两个工具使用方法也很简单
标准的命令行为
 autogb/autob5 [选项] <输入流 >输出流
   选项有
    -i 输入流的编码
    --input 输入流的编码

    -o 输出流的编码
    --output 输出流的编码

这样就可以同时处理繁简体和编码问题啦。
此外 可选的编码有 gb, big5, hz, uni, utf7 或者 utf8

实际上一般简单使用可以采用如下的方法
  autogb < 输入流(文件)   >输出流(文件)
        把输入流中的繁体字转换成简体字

  autob5 < 输入流(文件)   >输出流(文件)
        把输入流中的简体字转换成繁体字

不过这个转换仅仅是字的转换,对于原来繁简体字中存在的多对一的情况没有特别处理,都是选用的常用字,所以一般繁转简问题不大,简转繁可能存在生造词(别字)情况,这点要注意。

另外找到了一个windows下的工具这个工具可以实现比较丰富的转换,特别还能定制一些字词的转换对应关系,也算是很方便的工具啦。


阅读(2703) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~