iconv转换文件出错操作-lincolnrainbow-ChinaUnix博客

坠毁的痛

首页　| 　博文目录　| 　关于我

lincolnrainbow

博客访问： 544380
博文数量： 80
博客积分： 1496
博客等级：上尉
技术积分： 1292
用户组：普通用户
注册时间： 2008-09-18 11:24

个人简介

IT码农一个~

文章分类

全部博文（80）

搜索引擎（1）
人工智能（1）
erlang（3）
网络协议（2）
新兴技术（0）
分布式系统（0）
算法（1）
计算机通用技术（2）
C++（11）
个人随笔（3）
Database（7）
twisted（2）
python（1）
linux（39）
未分配的博文（7）

文章存档

2020年（3）

2019年（7）

2017年（1）

2016年（2）

2015年（2）

2014年（26）

2013年（26）

2012年（2）

2011年（1）

2010年（1）

2008年（9）

我的朋友

相关博文

iconv转换文件出错操作

分类： LINUX

2013-03-14 17:12:12

今天在Linux 下使用 Iconv 命令转换一个UTF8文件时，总是转换不成功
iconv -f utf8 -t gb2312 aaa.txt > bbb.txt。
提示：

iconv: illegal input sequence at position 15

后来使用 man iconv 查看，还是没发现异常，因为命令格式都是正确的。后来找了许多资料才知道原因，如下：

a. 在做编码转换的时候，如果你的源格式设定为 GB2312 的话，而且在转换成 UTF-8 的时候，发现程序会报“illegal input sequence at position xxxx”的错误。这是由于你之前的做的假定有问题。是国标里面一个最小也是最早的中文编码标准。其中，只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候，你可以用 GB18030 做为源格式来进行转换。是最新的国家标准，包含了 27,564 个汉字，而且向下兼容 GB2312 和 GBK。

b.另外，支持 Unicode 且 Free 的中文字库我推荐使用”“。这好像也是目前为止，唯一的一个以支持 Unicode 为出发点的 Free 的中文字库。

后来我直接输入：iconv -f utf8 -t gb18030 aaa.txt > bbb.txt 就OK了。

还有一个enconv的程序可以用来猜测编码

vim看文本的话就简单多了

set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,iso-8859-1,gbk
set encoding=utf-8

参考：
http://blog.sina.com.cn/s/blog_68b1a51b0101333f.html
http://zhaizhenxing8170.blog.163.com/blog/static/74425020084562258565/
http://blog.csdn.net/echoisland/article/details/6660619

阅读(15364) | 评论(0) | 转发(0) |

上一篇：linux下的shell语句如何获得前一天的日期

下一篇：vector clear 和 swap的比较

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6