Chinaunix首页 | 论坛 | 博客
  • 博客访问: 89698
  • 博文数量: 29
  • 博客积分: 1410
  • 博客等级: 上尉
  • 技术积分: 225
  • 用 户 组: 普通用户
  • 注册时间: 2006-03-20 00:00
个人简介

一杯茶,品人生沉浮;平常心,遍万千世界。 农夫,山泉,有点田儿。

文章存档

2013年(1)

2010年(3)

2009年(1)

2007年(2)

2006年(22)

我的朋友

分类:

2006-04-28 11:43:34

数据挖掘的任务和方法 ?  
    数据挖掘的功能大致有两种,预测检验功能和描述功能。数据挖掘的任务主要有4项:①概念描述,即对数据进行浓缩,给出某类对象内涵的紧凑表示。②发现关联规则,通过分析给出两个或多个变量间存在的相关性规律。③聚类,即簇聚同类对象,使在抽象空间中属于同一类别的个体距离尽可能小,反之尽量大。④偏差检测,寻找观察结果与参照值间的差别,这些偏差往往包含很多潜在有意义的知识信息。?  
      应用较普遍的数据挖掘与知识发现方法有:?  
      遗传算法。其基本原理是:类比生物进化过程,每一代同时存在许多不同的种群个体(染色体)。这些染色体的适应性以适应性函数f(x)表征,染色体的保留与淘汰取决于它们对环境的适应能力,优胜劣汰。适应性函数f(x)的构成与目标函数密切相关,往往是目标函数的变种。?遗传算子主要有3种:选择(复制)算子、交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传,将会得到满足要求的后代(问题的解)。?  
      2)粗集方法。其基本原理是:将数据库中的行元素看成对象,将列元素看成属性。设R为等价关系,定义为不同对象在某个(或几个)属性上取值相同。那些满足等价关系的对象构成集合,称为该等价关系R的等价类。设E为条件属性上的等价类,设Y为决策属性上的等价类,则E 和Y存在3种情况:Y包含E称为下近似;Y与E的交非空,称为上近似;Y与E的交为空,称为无关。对下近似建立确定性规则,对上近似建立不确定规则(含可信度),对无关情况则不存在规则。?  
      3)决策树方法。决策树方法是以信息论原理为基础,利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点。然后再根据字段的不同取值建立树的分支,在每个分支集中重复建立树的下层结点和分支。这种方法实际上是依循信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息或信道容量的基础上提取出反映类别的重要特征。
      4)神经网络方法。其原理是:模拟人脑的神经元结构,以MP模型和HEBB学习规则建立起前馈式网络、反馈式网络和自组织网络3大类多种神经网络模型。基于神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上。?  
       神经网络方法用于非线性数据和含噪声的数据时具有更大的优越性,比较适合于市场数据库的分析和建模,通过对市场数据库中行业数据的精密分析,为市场人员提供顾客、用户、市场状况和市场走势等方面的分析结果。
阅读(1918) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~