垂直搜索引擎之简单架构-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5851131
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

垂直搜索引擎之简单架构

分类：架构设计与优化

2014-08-20 13:03:43

互联网的海量数据信息，使得通用搜索引擎提供给用户的不相关信息太多，垂直搜索引擎专门针对某一类主题信息，以避免通用搜索引擎带来的“噪音”。
垂直搜索引擎通常由四个部分组成：信息采集模块、索引模块、查询模块和UI模块组成，换句话说即爬虫、索引、查询和web界面。
一、爬虫

1、配置

指定URL初始列表、爬取深度、抓取范围（主题相关即指定域名前缀）。

指定并行抓取数、抓取周期

2、抓取

从初始URL开始，广度优先遍历，结合爬取深度和主题相关过滤。

判断URL是否已经抓取，避免重新下载相同页面。

并行抓取URL（MultiCurl），缓存常用域名与IP对应关系，减少域名解析次数。

3、存储

以URL为KEY存储网页内容到原始网页库（LevelDB）。

4、解析

解析下载页面（HtmlCxx），包括标题（title）、超链接（href）、内容（文本内容最长，但要注意刨除脚本代码即标签之间,，脚本代码与文本相似，程序无法区分）。
此外，KeyWord、字体标记（大字体、加粗）对关键字的提取也很重要。

需要注意页面编码问题，通过标签获取编码方式，如果编码设置错误，页面文本内容可能会是乱码。

        根据指定URL前缀来过滤超链接，剩下的再去重后添加URL到等待下载队列，保证爬虫的资源自我发现能力。
        需要注意相对URL链接问题。

二、索引

1、词库

手工建词库+基于词频统计更新词库。
一级词库用于词库管理，二级词库真正用于分词。

2、分词

分词采用词库分词和统计分词相结合，词库分词的优点在于切分速度快、效率高，统计分词的优点在于收录新词（未登录词）。

（1）词库分词

分词算法采用正向最大匹配算法，即以词库为基准，从前往后正向扫描标题或者正文字符串，对扫描的每个词，从词库中寻找最长匹配。

假设S=C1C2C3C4，最大正向匹配算法描述如下：

（A）取一个字C1，在词库中查找C1并保存是否成词标记

（B）再取字C2，判断词库中是否有以C1C2为前缀的词

（C）不存在，则C1为单词，一次分词结束

（D）存在，判断C1C2是否为词，并取以C1C2为首的多个词的个数n

（E）如果n为0则一次分词结束

（F）否则再取一字，判断词库中是否有以C1C2C3为前缀的词

（G）若不存在，则返回最近一次能够成词的C1C2

（H）否则转向6

（I）从字C3开始下一次分词

假设标题为“我是中华人民共和国公民”，词库中有“中华人民共和国”、“中华”、“人民”、“共和国”、“公民”等词，则当扫描到“中”字，就从“中”字开始向后分别取1、2、3……8个字(“中”、“中华”、“中华人”、“中华人民”、“中华人民共”、“中华人民共和”、“中华人民共和国”、“中华人民共和国公”)，词表中的最长匹配字符串就是“中华人民共和国”,那么就此切分开，扫描器推进到“公”字，进行下一轮分词。

（2）统计分词

通常词是稳定的字的组合，根据n元语法，字与字相邻同时出现的频率或概率能够较好的反映成词的可信度，即频率越多就越可能是固定的词，简单的例子是统计两个字之间相邻的频率，频率大于某个阈值就认为这两个字组成了一个新词。
需要注意的是：这、的、啊之类的词，以滤掉对搜索无用的词组。

3、打分

对文档重要性打分用于检索时排序。

PageRank和HITS。

4、倒排

以Value为Key，检索URL为倒排。

注：以URL为Key，以分词得到的多个关键字为Value，建立的索引为正排索引。

三、检索

1、查询

根据关键词检索文档索引库。

对返回的文档去重。

根据文档打分结果进行排序。

反馈排序后结果给用户。

2、反馈

根据排序后结果渲染反馈：

（1）展现反馈

对整个结果展现反馈一次，参数包括QueryID、PvTime、KeyWord。

（2）点击反馈

搜索结果每次点击记录一次，参数包括QueryID、PvTime、KeyWord、DestinationURL。

四、WebUI

1、搜索框

输入搜索词，提示相关词汇。

2、结果集

分页显示、搜索时长、相关结果集总数。

Table显示每个分页的结果集。

结果记录由标题、链接、摘要、快照组成。
高亮显示关键词。

3、相关搜索