发布时间:2012-12-22 20:30:20
WWW2013投稿情况统计 数据来源:http://www2013.org/ 1、稿件涵盖范围分析,摘要投稿总数为1198篇,主题分布如下图: 2、投稿作者国籍分布情况如下(总人数2285人): ......【阅读全文】
发布时间:2012-12-21 21:02:21
Term Frequency:termi 在文档dj中的出现次数,记做tfi,,j。tfi,,j 越高,意味着termi 对于文档dj 就越重要。 比如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”的tf值会比较高。 Document Frequency:含有termi 的文档的数量,记做dfi。df越高,意味着termi 在衡量文档之间相似性方面作用越低,比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”。 Inverse Document Frequency:跟df形成“反比关系”,IDF =log(N/df)值越高,意味着termi对于文档的区别意义越大。......【阅读全文】
发布时间:2012-12-19 10:09:50
1、10Gen:10Gen is the developer and commercial support provider behind open source MongoDB。10Gen是开源MongoDB背后的开发和商业支持服务提供者 2、Amazon covers all big data bases----Amazon is about as big a big data practitioner as you can get. It's also the leading big data services provider. 3、Cloudera is the #1 p......【阅读全文】
发布时间:2012-12-19 09:08:20
Six technology jobs will be hot in 2013(Canada) 【个人原创翻译,不当之处请参考原文,转载请注明】 如果你是一个网络工程师或者移动应用开发者,你就是最受欢迎的人才之一,一家人力资源公司如是说。 If you're a network engineer or a mobile application designer you're among a group of people whose talent will be in demand, says a staffing firm 有需求是件很好的事,不管对个人还是对钱......【阅读全文】
发布时间:2012-12-14 15:12:27
文本分类入门(十一)特征选择方法之信息增益[转自网络] 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,分......【阅读全文】