Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2462416
  • 博文数量: 392
  • 博客积分: 7040
  • 博客等级: 少将
  • 技术积分: 4138
  • 用 户 组: 普通用户
  • 注册时间: 2009-06-17 13:03
个人简介

范德萨发而为

文章分类

全部博文(392)

文章存档

2017年(5)

2016年(19)

2015年(34)

2014年(14)

2013年(47)

2012年(40)

2011年(51)

2010年(137)

2009年(45)

发布时间:2013-03-29 17:29:35

1、WhitespaceAnalyzer    仅仅是去除空格,对字符没有lowcase化,不支持中文;      并且不对生成的词汇单元进行其他的规范化处理。2、SimpleAnalyzer    功能强于WhitespaceAnalyzer, 首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分.........【阅读全文】

阅读(1181) | 评论(0) | 转发(0)

发布时间:2013-03-27 19:16:04

在代码的主目录下添加如下文件:IK Analyzer扩展配置extwords.dicstopword.dic这里.........【阅读全文】

阅读(6008) | 评论(0) | 转发(0)

发布时间:2013-03-21 17:13:21

http://blog.sina.com.cn/s/blog_6e6ef9830101ahs9.html在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间.........【阅读全文】

阅读(6301) | 评论(0) | 转发(0)

发布时间:2013-03-19 17:59:08

传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个.........【阅读全文】

阅读(1607) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

CU博客助理2013-01-09 08:37

jiangwen127: 这个是自动推荐的吗,还是需要博主主动去推荐.....
工作人员更新

回复  |  举报

CU博客助理2013-01-08 17:27

jiangwen127: 晕,我以为是删选之后推荐到blog.chinaunix.net的首页.....
如果你有写的特别好的文章,最好是近期的,就可以到博客首页。

回复  |  举报

CU博客助理2013-01-08 14:27

jiangwen127: http://blog.chinaunix.net/uid-20761674-id-3424553.html
我推荐首页的文章怎么老是不行呢,给点意见吧.....
已经在你的首页了啊,怎么不行了?

回复  |  举报

chinaunix网友2010-04-18 19:44

你好,可不可以麻烦你加一下我的qq啊。。。有几个问题想问问。很着急啊。。谢谢噢:852476785

回复 |  删除 |  举报

chinaunix网友2010-04-18 14:30

你好,可以麻烦你加我的qq么:852476785 看了你hadoop那篇编程,Sogo日志分析那个,想请教一下。。。。非常非常非常非常非常非常感性吖

回复 |  删除 |  举报
留言热议
请登录后留言。

登录 注册