查看文件编码和iconv字符集编码转换轻松实现-ccjsj1

Chinaunix首页 | 论坛 | 博客

手机平板在线看片-69AVi.com

首页　| 　博文目录　| 　关于我

ccjsj1_cu

博客访问： 1776989
博文数量： 293
博客积分： 10574
博客等级：上将
技术积分： 5085
用户组：普通用户
注册时间： 2006-12-22 17:00

文章分类

全部博文（293）

apue（4）
redhat（12）
fc红白机（0）
openssl（2）
系统变量（1）
bug（3）
监控和抓包（8）
unix（23）

aix（7）

slackware（6）

gentoo（2）

scoopenserver（0）

freebsd（0）

solaris（7）
wine（1）
rtorrent（4）
helix（1）
adobe fms3.5（1）
无线（6）
hdbits（2）
19宽屏（2）
N-Gage QD（1）
inflation（1）
windows（5）
adsl（0）
硬件（5）
eda（1）

Synopsys（0）

Cadence（0）
常用软件（15）
英语学习（0）
tcp/ip（2）
字符串命令（13）
网络解决方案（3）
娱乐（2）
路由交换（1）

常用命令（0）

华为（0）

思科（0）
c基础（10）
数据库（16）

mysql（10）

mssql（0）

pgsql（0）

oracle（6）
mplayer（4）
shell脚本（28）
系统常用命令（39）
系统服务（77）

logrotate（2）

quota（1）

ntp（2）

cluster（0）

cups（0）

nfs（1）

snmp（3）

bonding（1）

yum（2）

vnc（1）

X11（3）

selinux（1）

dhcp（0）

pam（1）

kernel（10）

squid（5）

lvm（2）

cron（0）

cvs（3）

syslog（1）

tomcat（2）

netfilter（16）

tc（1）

lvs（3）

samba（1）

ftp（6）

postfix（3）

sendmail（0）

mail（0）

bind（1）

apache（5）
未分配的博文（0）

文章存档

2011年（27）

2010年（84）

2009年（62）

2008年（120）

我的朋友

相关博文

查看文件编码和iconv字符集编码转换轻松实现

分类： LINUX

2009-09-27 15:55:19

查看文件编码
在Linux中查看文件编码可以通过以下几种方式：
1.在Vim中可以直接查看文件编码
:set fileencoding
即可显示文件编码格式。
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在
~/.vimrc 文件中添加以下内容：

set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936

这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开。
2. enca (如果你的系统中没有安装这个命令，可以用sudo yum install -y enca 安装 )查看文件编码
$ enca filename
filename: Universal transformation format 8 bits; UTF-8
CRLF line terminators
需要说明一点的是，enca对某些GBK编码的文件识别的不是很好，识别时会出现：
Unrecognized encoding

文件:	enca-1.9.tar.bz2
大小:	491KB
下载:	下载

文件编码转换
1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式
:set fileencoding=utf-8

2. enconv 转换文件编码，比如要将一个GBK编码的文件转换成UTF-8编码，操作如下
enconv -L zh_CN -x UTF-8 filename

在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。

一、利用iconv命令进行编码转换

iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。

用法： iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范：
-f, --from-code=名称原始文本编码
-t, --to-code=名称输出编码

信息：
-l, --list 列举所有已知的字符集

输出控制：
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

-?, --help 给出该系统求助列表
--usage 给出简要的用法信息
-V, --version 打印程序版本号

例子:
iconv -f utf-8 -t gb2312 aaa.txt > bbb.txt
这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。

二、利用iconv函数族进行编码转换
iconv函数族的头文件是iconv.h,使用前需包含之。

#include
iconv函数族有三个函数,原型如下:
(1) iconv_t iconv_open(const char *tocode, const char *fromcode);
此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。
(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);
此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。
(3) int iconv_close(iconv_t cd);
此函数用于关闭转换句柄,释放资源。

例子1: 用C语言实现的转换示例程序

/* f.c : 代码转换示例C程序 */ #include <iconv.h> #define OUTLEN 255 main() { char *in_utf8 = "姝ｅ?ㄥ??瑁?"; char *in_gb2312 = "正在安装"; char out[OUTLEN]; /*unicode码转为gb2312码*/ rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN); printf("unicode-->gb2312 out=%sn",out); //gb2312码转为unicode码 rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN); printf("gb2312-->unicode out=%sn",out); } /*代码转换:从一种编码转为另一种编码*/ int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen) { iconv_t cd; int rc; char **pin = &inbuf; char **pout = &outbuf; cd = iconv_open(to_charset,from_charset); if (cd==0) return -1; memset(outbuf,0,outlen); if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1; iconv_close(cd); return 0; } /*UNICODE码转为GB2312码*/ int u2g(char *inbuf,int inlen,char *outbuf,int outlen) { return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen); } /*GB2312码转为UNICODE码*/ int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen) { return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen); }

例子2: 用C++语言实现的转换示例程序

/* f.cpp : 代码转换示例C++程序 */ #include <iconv.h> #include <iostream> #define OUTLEN 255 using namespace std;

// 代码转换操作类

class CodeConverter { private: iconv_t cd; public:

// 构造 CodeConverter(const char *from_charset,const char *to_charset) { cd = iconv_open(to_charset,from_charset); }

// 析构 ~CodeConverter() { iconv_close(cd); }

// 转换输出 int convert(char *inbuf,int inlen,char *outbuf,int outlen) { char **pin = &inbuf; char **pout = &outbuf; memset(outbuf,0,outlen); return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen); } }; int main(int argc, char **argv) { char *in_utf8 = "姝ｅ?ㄥ??瑁?"; char *in_gb2312 = "正在安装"; char out[OUTLEN]; // utf-8-->gb2312 CodeConverter cc = CodeConverter("utf-8","gb2312"); cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN); cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl; // gb2312-->utf-8 CodeConverter cc2 = CodeConverter("gb2312","utf-8"); cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN); cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl; }


小结: LINUX为我们提供了强大的编码转换工具,给我们带来了方便。

转自: http://blog.chinaunix.net/u2/69143/showart_1816328.html

阅读(1710) | 评论(0) | 转发(0) |

上一篇：vim+ctags+taglist和vim中gdb调试

下一篇：lspci - 列出所有PCI設備 (转)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6