网页内容编码转换之iconv-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5875492
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

网页内容编码转换之iconv

分类： Web开发

2014-09-30 18:04:08

        在网页解析，比如：爬虫应用中，网页内容的编码转换是一件令人头痛的事情。
      比如：一般中文网页编码是gbk，用libcurl下载网页后，用C/C++代码解析网页内容时，看到的会是乱码，因为C/C++默认的编码是utf-8。
      所幸的是iconv可以实现各种编码之间的互转，为我们完美的解决了此类问题。
一、安装
      使用之前需要确认系统是否已经安装iconv，如果没有安装，点击下载源码。
      解压后，进入源码目录，开始编译安装：
      #./configure --prefix=/usr/local
      #make
      #make install
      #ldconfig
      安装完后就可以开始使用了，关于iconv的更多详细信息可以参见。

二、使用
        iconv的使用很简单，一共涉及3个函数，具体例子如下：
        #vi main.cpp
      #include
      #include
        #include
        int main(int argc, char *argv[])
      {
          //获得句柄，这里是从gbk转换为utf-8
            iconv_t cd = iconv_open("utf-8","gbk");
            if ((iconv_t)-1 == cd)
          {
      printf("iconv_open failed\n");
        return -1;
        }
          char *src = "我是中国人"; //假设是gbk编码
          char dst[10*1024*1024] = {0};//有时候出错，是因为buf太小，所以buf要足够大，比如：utf-8=1.5*gbk
          size_t src_len = strlen(src);
          size_t dst_len = sizeof(dst);
        //编码转换
            int ret = iconv(cd, &src, &src_len, &dst, &dst_len);
        if ((size_t)-1 == ret || dst_len <= 0)
        {
       printf("iconv failed: %s\n" , strerror(errno).c_str());
        return -1;
        }
            iconv_close(cd);//关闭句柄
     printf("gbk(%s)-->utf-8(%s)\n", src, dst);
          return 0;
        }
        #g++ -o main main.cpp -liconv
      #./main
      如果成功了，恭喜你，如果出现如下错误：
        Invalid or incomplete multibyte or wide character iconv
      则说明在调用函数iconv_open时对网页编码指定错了，比如：顺序出错。

阅读(7320) | 评论(4) | 转发(0) |

上一篇：Hadoop初探之Stream

下一篇：解密搜索引擎技术之聚类与相似性word2vec

给主人留下些什么吧！~~

scq2099yt2014-10-08 10:33:31

cxsvip：如果不知道源编码格式，有办法转换成指定的格式不？例如不知道源网页是什么编码，想统一转成UTF8的，可能吗？

会报错

回复 | 举报

scq2099yt2014-10-08 10:33:31

cxsvip：如果不知道源编码格式，有办法转换成指定的格式不？例如不知道源网页是什么编码，想统一转成UTF8的，可能吗？

会报错

回复 | 举报