解密搜索引擎技术之页面解析htmlcxx-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5875494
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

解密搜索引擎技术之页面解析htmlcxx

分类：架构设计与优化

2014-08-11 00:06:43

一、简介
        htmlcxx是一款简洁的，非验证式的，用C++编写的css1和html解析器。和其他的几款Html解析器相比，它具有以下的几个特点：
        （1）使用由KasperPeeters编写的强大的tree.h库文件，可以实现类似STL的DOM树遍历和导航。
        （2）可以通过解析后生成的树，逐字节地重新生成原始文档。
        （3）打包好的Css解析器。
        （4）额外的属性解析功能
        （5）看似很像C++代码的C++代码(其实已不再是C++了)
        （6）原始文档中的tags/elements的偏移值都存储在DOM树的节点当中。
        htmlcxx的解析策略其实是尝试模仿mozilla firefox()的模式。因此你应当尝试去解析那些由firefox所生成的文档。然而不同于firefox浏览器，htmlcxx并不会将一些原本不存在的东西加入到所生成的文档当中去。因此，在将生成树进行序列化的时候，能够完全地还原和原始Byte大小一样的HTML文档。
        这是htmlcxx简要介绍，我的理解作为页面解析丝毫没有问题，更多介绍请参看，也可以参看这里。

二、编译
        这里以CentOS 6.2下使用最新版本htmlcxx-0.85.tar.gz为例说明之，可以从下载源码。
        htmlcxx的编译和安装都很简单，解压后执行如下指令即可：
        #./configure
        #make
        #make install
        默认lib安装在/usr/lib下，css和html头文件安装在/usr/local/include/htmlcxx下。

三、使用
        这里以一个小例子说明如下解析html文档，源码如下：
        #vi main.cpp
        #include
        #include
        #include
        #include
        #include
        #include
        #include

        using namespace std;
        using namespace htmlcxx;

        int main()
        {
          //待解析的一段html代码
            string html ="hey ";

            HTML::ParserDom parser;
            tree dom = parser.parseTree(html);

            //输出整棵DOM树
            cout<< dom << endl;

            //输出树中所有的超链接节点
            tree::iterator it = dom.begin();
            tree::iterator end = dom.end();
            for(; it != end; ++it)
            {
                if (strcasecmp(it->tagName().c_str(), "A") == 0)
            {
                it->parseAttributes();
                cout <attribute("href").second << endl;
            }
      }

      //输出所有的文本节点
      it= dom.begin();
      end= dom.end();
      for(; it != end; ++it)
      {
            if ((!it->isTag()) && (!it->isComment()))
          {
               cout << it->text();
            }
      }
      cout << endl;
        }
      #gcc -o main main.cpp -Iusr/include/htmlcxx -lhtmlcxx
      #./main
        -----
        0@[0;29)
        1@[0;29) html
        2@[6;22) body
        3@[12;15) hey
        -----
        hey
        附注：htmlcxx和libcurl结合可以很好地实现网页抓取和解析。

阅读(5343) | 评论(1) | 转发(1) |

上一篇：跨终端Web

下一篇：解密搜索引擎技术之排序算法

给主人留下些什么吧！~~

scq2099yt2014-08-11 00:06:56

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6