作用:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
理论基础:一个词的重要程度与词在文中的词频有关,以及与词在其他文档中被包含的程度有关。
TF: Term Frequency 词频
以上式子中 是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
IDF: Inverse Document Frequency 逆向文件频率
某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到
阅读(1008) | 评论(0) | 转发(0) |