Linux系统中关于文件编码以及编码的转换-younghawk-ChinaUnix博客

younghawk

首页　| 　博文目录　| 　关于我

younghawk

博客访问： 511527
博文数量： 105
博客积分： 3040
博客等级：中校
技术积分： 1450
用户组：普通用户
注册时间： 2005-07-08 13:04

文章分类

全部博文（105）

windows（6）

windows 应用（3）
操作系统（14）

scounix（0）

linux（14）

aix操作系统（0）
数据库（58）

postgresql（0）

mysql（4）

infromix（0）

oracle（54）
linux 应用（24）

vsftp（1）

awstats（1）
其它小计（0）
网络游记（0）
备份技能（1）
心情日记（1）
未分配的博文（1）

文章存档

2008年（105）

我的朋友

相关博文

Linux系统中关于文件编码以及编码的转换

分类： LINUX

2008-07-22 10:36:10

Windows中默认的文件格式是GBK(gb2312)，当然也可以保存为UTF-8的，最简单的方法是用记事本的“另存为”就可以做到。

为了与windows兼容，SecureCRT中文件编码的默认配置是”Default”，其实也就是GBK。如果我们将其更改为了”UTF-8″，那么我们查看从windows中scp过去的GBK文件就会变成乱码，需要进行转换，比较麻烦。

不过有时候我们也需要进行编码的转换，比如这次我这次在建立cacti的模板的时候使用了中文，apache默认是UTF-8的编码，所以记录到mysql数据库中的就是UTF-8的编码了(奇怪的是，在mysql中使用”set names utf-8″看不到正确的中文，需要使用”hex()”函数来看二进制，数一下字符数量，看是不是utf-8…..)。而当我使用批量添加主机的脚本来添加新服务器信息到数据库后，发现在网页中出现了乱码。原因是在cli中使用脚本的话，中文是使用GBK的格式保存到数据库中的。于是变成了很郁闷的情况，无论将浏览器编码设置为”UTF-8″还是”GB2312″，总会有一部分中文是乱码的。

解决的方法，不是将原来的模板的中文都转换成gb2312，就是要将以后添加的主机信息里面的中文转换成UTF-8。因为我比较喜欢UTF-8一点，所以我决定用后一种方法。

linux里面转换编码的方法很多，google了一下，一般的人都是用”iconv”命令来进行转换。但是由于我需要在脚本里面判断文件的编码，”iconv”就不太适用。其实Linux里面还有另一个能进行编码转换，并比”iconv”功能强大的”enca”。

debian中的安装:

aptitude install enca

使用方法：

enca -L zh_CN file 检查文件的编码

enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码

enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样

除了有检查文件编码的功能以外，”enca”还有一个好处就是如果文件本来就是你要转换的那种编码，它不会报错，还是会print出结果来，而”iconv”则会报错。这对于脚本编写是比较方便的事情。

阅读(1708) | 评论(0) | 转发(0) |

上一篇： Linux的bonding技术中负载均衡详述

下一篇：oracle dblink

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6