TFIDF以及信息增益IG的计算的傻瓜理解法-chaoshua-ChinaUnix博客

文章分类

文章存档

2012年（24）

2011年（28）

2008年（23）

我的朋友

相关博文

分类：系统运维

2012-12-21 21:02:21

：termi 在文档dj中的出现次数，记做tfi,,j。tfi,,j 越高，意味着termi 对于文档dj 就越重要。

比如：一篇谈论乔丹的文章，可以预期“乔丹”、“飞人”的tf值会比较高。

Document Frequency：含有termi 的文档的数量，记做dfi。df越高，意味着termi 在衡量文档之间相似性方面作用越低，比如“的”的df值肯定非常高，因此不具有区别性，这类词称为“非焦点词”。

Inverse Document Frequency：跟df形成“反比关系”，IDF =log(N/df)值越高，意味着termi对于文档的区别意义越大。N为全部文档的数量。如果termi 仅出现在一个文档中，idf=logN，如果一个项目出现在所有文档中，idf= log1 = 0

信息增益(IG，Information Gain)

IG(termi)=E(C)-E(C|termi) E表示熵，C表示类别。

是总类别数，P(Ci)是第i类出现的概率，若每类平均出现，则P(Ci)=1/n.

P(t)是出现词语t的文档数除以总文档数，p(t否)=1-p(t).

P(Ci|t)即t出现时，Ci出现的概率，等于出现t且属于Ci的文档数除以所有出现t的文档总数。

p(Ci|t否)即t不出现但属于Ci的概率，等于未出现t但属于Ci的文档总数除以未出现t的所有文档数。

阅读(6133) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们