Rocchio算法-nese-ChinaUnix博客

nese的点滴nese.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

nese

博客访问： 451388
博文数量： 85
博客积分： 3580
博客等级：中校
技术积分： 970
用户组：普通用户
注册时间： 2010-03-09 14:09

文章分类

全部博文（85）

文章（2）
其他技术（6）
Linux（30）

awk&sed（1）

Shell（3）
数据挖掘与文本分（9）

字符串相似度-序（2）
网络安全（11）
C on Linux（24）

代码（9）

编码（2）

CODE（4）

DEBUG（8）
内核学习与安全（0）
未分配的博文（3）

文章存档

2011年（7）

2010年（78）

我的朋友

最近访客

推荐博文

Rocchio算法

分类：

2010-05-06 11:49:58

基本思想是使用训练集为每个类构造一个原型向量.

构造方法如下：给定一个类，训练集中所有属于这个类的文档对应向量的分量用正数表示，所有不属于这个类的文档对应向量的分量用负数表示，然后把所有的向量加起来，得到的和向量就是这个类的原型向量，定义两个向量的相似度为这两个向量夹角的余弦，逐一计算训练集中所有文档和原型向量的相似度，然后按一定的算法从中挑选某个相似度作为界。给定一篇文档，如果这篇文档与原型向量的相似度比界大，则这篇文档属于这个类，否则这篇文档就不属于这个类。

Rocchio算法的突出优点是容易实现，计算（训练和分类）特别简单，它通常用来实现衡量分类系统性能的基准系统，而实用的分类系统很少采用这种算法解决具体的分类问题。

其基本思想不难解释,对于一个词集,和一个分类,总有某些词,这些词一旦出现属于这个分类的可能性就会增加,而另一些词一旦出现属于这个分类的可能性就会降低,那么累计这些正面的,和负面的影响因素,最后由文档分离出的词向量可以得到对于每个类的一个打分,打分越高属于该类的可能性就越大.

对于某种非此即彼的分类特别合适,比如有两个类别, A, ~A, 任给一个文档,判断属于分类A还是分类~A,可以认为A的特征项均给与正值,~A都给与负值,那么给定一个合理阈值,就很容易做出这种类型的分类.

阅读(1324) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：文本分类,数据挖掘和机器学习

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6