发布时间:2013-07-24 10:58:56
%运行环境:matlab R2012a @ winxp in virtualbox4.2.16. SOM_ToolBox V2.0 Mar_17_2005.% ==========================================================% SOM_DEMO2 - BASIC USAGE OF SOM TOOLBOX% =====================================================.........【阅读全文】
发布时间:2012-12-21 21:02:21
Term Frequency:termi 在文档dj中的出现次数,记做tfi,,j。tfi,,j 越高,意味着termi 对于文档dj 就越重要。 比如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”的tf值会比较高。 Document Frequency:含有termi 的文档的数量,记做dfi。df越高,意味着termi 在衡量文档之间相似性方面作用越低,比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”。 Inverse Document Frequency:跟df形成“反比关系”,IDF =log(N/df)值越高,意味着termi对于文档的区别意义越大。......【阅读全文】
发布时间:2012-12-14 15:12:27
文本分类入门(十一)特征选择方法之信息增益[转自网络] 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,分......【阅读全文】