Chinaunix首页 | 论坛 | 博客
  • 博客访问: 44168
  • 博文数量: 9
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 130
  • 用 户 组: 普通用户
  • 注册时间: 2012-08-03 07:58
文章分类

全部博文(9)

文章存档

2014年(4)

2013年(5)

我的朋友

分类: 其他平台

2014-07-10 22:15:14

作用TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
理论基础:一个词的重要程度与词在文中的词频有关,以及与词在其他文档中被包含的程度有关。

TF: Term Frequency 词频


以上式子中 n_{i,j} 是该词在文件d_{j}中的出现次数,而分母则是在文件d_{j}中所有字词的出现次数之和。



IDF: Inverse Document Frequency 逆向文件频率


某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到
阅读(1008) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~