分类: 数据库开发技术
2006-07-06 20:03:40
关联规则简介: 关联规则虽然来源于 POS中,但是可以应用于很多领域。只要一个客户在同一个时间里买了多样东西,或者在一段时间了做了好几样事情就可能是一个潜在的应用。例如:
数据挖掘什么时候有用?三种规则:有用的、价值不高的、费解的。价值不高的规则往往是对一些商业领域内的规则重现。费解的规则往往是数据中一些偶然的东西,从而也没有什么采取行动的价值。 虚拟元素( Virtual Items)是一个在事务中认为加入的元素。用来对事务进行一定的区别。加入虚拟元素后我们能做的事情:
数据挖掘的基本流程:
支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中 S(A)=0.45。可信度:它是针对规则而言的。对于一般的规则,它的可信度 =p(condition and result)/p(condition)。例如有如下规则:If B and C then A。则它的可信度是:p(B and C and A)/p(B and C)=5%/15%=0.33。提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取 A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下:兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。
分裂规则:例如:If A and not B then C。 用关联规则的方法对序列规则的分析: 为了进行序列模式的分析,事务数据要满足额外的两个条件:
可以用于原因结果分析。
关联规则的优缺点: 优点:
缺点:
|