范德萨发而为
全部博文(392)
发布时间:2013-03-29 17:29:35
1、WhitespaceAnalyzer 仅仅是去除空格,对字符没有lowcase化,不支持中文; 并且不对生成的词汇单元进行其他的规范化处理。2、SimpleAnalyzer 功能强于WhitespaceAnalyzer, 首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分.........【阅读全文】
发布时间:2013-03-27 19:16:04
在代码的主目录下添加如下文件:IK Analyzer扩展配置extwords.dicstopword.dic这里.........【阅读全文】
发布时间:2013-03-21 17:13:21
http://blog.sina.com.cn/s/blog_6e6ef9830101ahs9.html在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间.........【阅读全文】
发布时间:2013-03-19 17:59:08
传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个.........【阅读全文】
CU博客助理2013-01-08 14:27
chinaunix网友2010-04-18 14:30
你好,可以麻烦你加我的qq么:852476785 看了你hadoop那篇编程,Sogo日志分析那个,想请教一下。。。。非常非常非常非常非常非常感性吖