Chinaunix首页 | 论坛 | 博客
  • 博客访问: 21027
  • 博文数量: 15
  • 博客积分: 911
  • 博客等级: 准尉
  • 技术积分: 230
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-05 14:24
文章分类
文章存档

2011年(15)

我的朋友
最近访客

分类:

2011-01-05 15:11:11

Web挖掘是应用数据挖掘技术自动从Web文档和服务中发现和抽取感兴趣的、潜在的、有用模式和隐藏的信息.Web挖掘可在很多方面发挥作用,如对搜索引擎的结构进行挖掘、确定权威页面、Web文档分类、Web日志挖掘、智能查询等.Web挖掘可分解为以下几个子任务:

1)资源发现:从Web上检索期望的Web文档和服务.

2)信息抽取和预处理:从已检索的Web资源中自动抽取和预处理指定信息.

Web结构挖掘Web内容挖掘仅将Web看作是一个平面文档的集合,而忽略了其中的结构信息,然而,Web不仅由页面组成,而且 链接页面的超链接组成,超链接环境的网络结构具有非常丰富的信息,包含了大量的潜在的人工注释.Web结构挖掘是从Web的组织结构和链接关系中推导知识,揭示了哪些页面通过当前页面可以两步内到达,但并不关心多少人会

Web内容挖掘是从文档内容或其描述中抽取知识的过程.Web内容挖掘揭示网页的主题,但并不关心谁会真正阅读它.包括两种策略:Web文档挖掘和搜索结果挖掘.采用第一种策略的方法是直接挖掘文档的内容;采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和更为有用的信息.常见的Web内容挖掘技术主要有对Web上大量文档集合的内容或搜索结果的文本摘要、分类、聚类、关联分析,以及利用文档进行趋势预测等+

Web内容挖掘

4)分析:已挖掘模式的确认与解释.根据使用的Web数据种类的不同,Web挖掘可分为三类研究:Web内容挖掘(web Content Ming)web结构挖掘(Web Structure Ming)web使用挖掘

3)一般化:在Web站点自动发现通用模式.

实际用到这条通路.通过挖掘Web结构可以发现页面的结构和 的结构,在此基础上对页面进行分类和聚类从而找到权威页面.这方面工作的代表有PageRankCLEVER

Web使用挖掘是通过分析和探究Web访问记中的规律,从中抽取感兴趣的模式.主要包括两个方面:一般的访问模式追踪和个性化的使用记录追踪.一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构.而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点.web使用挖掘的整个过程可以分为:数据预处理,模式发现和模式分析等任务.数据预处理阶段根据数据挖掘要求把原始数据转换成挖算法可用的数据,必要时把它加载到数据库中.模式发现阶段使用各种数据挖掘方法分析可用的数据,这些方法从简单的统计分析,到计算量很大的关联规则、序列模式、分类、聚类等.模式分析阶段是由于模式发现的结果往往包含许多无用的模式,需要采用各种方法(如兴趣度、模式可视化)分析和过滤出需要的模式.

这篇文章对您有帮助吗?欢迎继续浏览  返回首页


参考资料:
阅读(514) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:【北京SEO】网站优化系统基本框架

给主人留下些什么吧!~~