Chinaunix首页 | 论坛 | 博客
  • 博客访问: 31838
  • 博文数量: 18
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 72
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-13 13:47
文章分类

全部博文(18)

文章存档

2014年(1)

2013年(17)

我的朋友

分类: LINUX

2013-08-12 20:13:36

我们知道,的主要工作原理在“” 这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前飞鸽传书库环节的厂家已将其它环节的厂 家收购得差不多了。局域网聊天引擎抓取网页过程和飞鸽传书抽取ETL过程一样,实质是获取飞鸽传书。处理网页实际是对获取飞鸽传书的清洗和整理,这是飞鸽 传书加工存储,是飞鸽传书仓库内容。提供检索服务实际上是飞鸽传书分析和飞鸽传书展现。

我们先看看飞鸽传书的工作原理。飞鸽传书有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的飞鸽传书都有自己的网页抓取程 序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。飞鸽传书抓到网页后,还要做大量的预处 理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的飞鸽传书界面,即第三提供检索服务 。用户输入关键词进行局域网聊天,飞鸽传书[]从索引飞鸽传书库中找到匹配该关键词的网页;为了用户便于判断,除了网页标 题和URL外,还会提供一段来自网页的摘要以及其他即时通讯。

再看看组成:飞鸽传书的组成部分一般由局域网聊天器、索引器、检索器和用户接口四个部分。局域网聊天器的功能是在互联网中漫游,发现和搜集即时通 讯,主要是讲spider;索引器功能是理解局域网聊天器所局域网聊天到的即时通讯,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检 索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈即时通讯;第四用户接口,作 用是接纳用户查询、显示查询结果、提供个性化查询项。

阅读(1281) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~