三个主要的组成部分 主题爬行器 检索器 管理平台
主题爬行器是实现基于主题的信息采集功能的核心组成部分 ,一般由爬行队列 、网络连接器 、主题模型、内容相关度分析以及链接相关度分析等功能模块组成
其中,爬行队列是由一系列 主题相关度较高的 URL组成。爬行队列在主题搜索引擎进行主题搜索之初是由种子站点组成 ,这些种子站点可以由该行业领域 的专家给出,也可以借助一些权 威 网站 自动生成。在搜索过程开始之后 ,系统发现新的URL,并根据主题相关度对其排序后补充到爬行队列中。网络连接器则根据爬行 队列中的 URL,与网络建立连接后 以下载其所指页面内容。
主题模型由主题建模方法来实现 主题词法是常用的主题建模方法 关键词法以一组特征关键词来表示主题内容 包括用户需求主题 以及文档内容主图 一个关键词可以是单个的词 短语 包括权重语种等属性 常用的相关度算法是词频统计法。
内容相关度分析是指系统对经过 内容特征提取后的网页数据进行分析 ,判定网页内容与指定主题相关 度如何,过滤无关页面,保留相关度达到阈值的网页。
链接相关度分析是指系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求 的URL加入到爬行队列 中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到。
检索器为用户提供查询界面,根据用户 提出的检索式对索引数据库进行检索,按相关度高低对查询结果排序后将页面链接及相关信息返回给用户 。
管理平台负责对整个系统进行监控和管理。主要实现确定主题、初始化爬行器、控制爬行过程、协调优化模块间功能实现、用户交互等功能。作为一个完善的搜索引擎 ,管理平台还应供跨平台应用网络服务应用接口
阅读(6778) | 评论(0) | 转发(1) |