Chinaunix首页 | 论坛 | 博客
  • 博客访问: 711453
  • 博文数量: 98
  • 博客积分: 3257
  • 博客等级: 中校
  • 技术积分: 966
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-15 17:19
文章存档

2020年(1)

2018年(1)

2017年(1)

2016年(2)

2015年(2)

2013年(3)

2012年(24)

2011年(28)

2010年(4)

2009年(9)

2008年(23)

我的朋友

分类: 系统运维

2012-12-21 21:02:21

termi 在文档dj中的出现次数,记做tfi,,jtfi,,j 越高,意味着termi 对于文档dj 就越重要。

比如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”的tf值会比较高。

Document Frequency:含有termi 的文档的数量,记做dfidf越高,意味着termi 在衡量文档之间相似性方面作用越低,比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”。

Inverse Document Frequency:跟df形成“反比关系”,IDF =log(N/df)值越高,意味着termi对于文档的区别意义越大。N为全部文档的数量。如果termi 仅出现在一个文档中,idf=logN,如果一个项目出现在所有文档中,idf= log1 = 0

信息增益(IGInformation Gain)

IG(termi)=E(C)-E(C|termi)   E表示熵,C表示类别。

 

是总类别数,P(Ci)是第i类出现的概率,若每类平均出现,则P(Ci)=1/n.

P(t)是出现词语t的文档数除以总文档数,p(t)=1-p(t).

P(Ci|t)t出现时,Ci出现的概率,等于出现t且属于Ci的文档数除以所有出现t的文档总数。

p(Ci|t)t不出现但属于Ci的概率,等于未出现t但属于Ci的文档总数除以未出现t的所有文档数。

阅读(6027) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~