分类: 系统运维
2012-12-21 21:02:21
:termi 在文档dj中的出现次数,记做tfi,,j。tfi,,j 越高,意味着termi 对于文档dj 就越重要。
比如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”的tf值会比较高。
Document Frequency:含有termi 的文档的数量,记做dfi。df越高,意味着termi 在衡量文档之间相似性方面作用越低,比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”。
Inverse Document Frequency:跟df形成“反比关系”,IDF =log(N/df)值越高,意味着termi对于文档的区别意义越大。N为全部文档的数量。如果termi 仅出现在一个文档中,idf=logN,如果一个项目出现在所有文档中,idf= log1 = 0
信息增益(IG,Information Gain)
IG(termi)=E(C)-E(C|termi) E表示熵,C表示类别。
是总类别数,P(Ci)是第i类出现的概率,若每类平均出现,则P(Ci)=1/n.
P(t)是出现词语t的文档数除以总文档数,p(t否)=1-p(t).
P(Ci|t)即t出现时,Ci出现的概率,等于出现t且属于Ci的文档数除以所有出现t的文档总数。
p(Ci|t否)即t不出现但属于Ci的概率,等于未出现t但属于Ci的文档总数除以未出现t的所有文档数。