Chinaunix首页 | 论坛 | 博客
  • 博客访问: 5647082
  • 博文数量: 291
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 7924
  • 用 户 组: 普通用户
  • 注册时间: 2016-07-06 14:28
个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文(291)

文章存档

2018年(21)

2017年(4)

2016年(5)

2015年(17)

2014年(68)

2013年(174)

2012年(2)

发布时间:2015-01-26 21:07:22

一、简要介绍        word2vec是Google在2013年发布的一个开源项目,它能够将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec项目详细信息请参见这里。        .........【阅读全文】

阅读(4530) | 评论(0) | 转发(0)

发布时间:2014-08-28 12:29:48

        中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配.........【阅读全文】

阅读(11764) | 评论(8) | 转发(5)

发布时间:2014-08-11 00:07:59

一、PageRank        算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。,由拉里-佩奇提出。        简单说,PageRank算法是计算每个网页的综合得.........【阅读全文】

阅读(4923) | 评论(1) | 转发(1)

发布时间:2014-08-11 00:06:43

一、简介        htmlcxx是一款简洁的,非验证式的,用C++编写的css1和html解析器。和其他的几款Html解析器相比,它具有以下的几个特点:        (1)使用由KasperPeeters编写的强大的tree.h库文件,可以实现类似STL的DOM树遍历和导航.........【阅读全文】

阅读(5168) | 评论(1) | 转发(1)

发布时间:2014-01-22 00:08:06

        因为中文文本中,词和词之间不像英文一样存在边界,所以中文分词是一个专业处理中文信息的搜索引擎首先面对的问题,需要靠程序来切分出词。一、Lucene中的中文分词        Lucene在中处理中文的常用方法有三种,以“咬死猎人的狗”为例说.........【阅读全文】

阅读(7107) | 评论(1) | 转发(3)
给主人留下些什么吧!~~

silence06072014-09-20 13:30

期待redis运维管理的心得=。=

回复  |  举报

scq2099yt2013-08-23 11:10

电影vs程序员:期待新文章

感谢鼓励

回复  |  举报

电影vs程序员2013-08-22 18:15

期待新文章

回复  |  举报

scq2099yt2013-08-15 10:01

vincent2010_:博主,目前从事运维工作,有没有QQ联系方式,

14046300

回复  |  举报

vincent2010_2013-08-14 18:18

博主,目前从事运维工作,有没有QQ联系方式,

回复  |  举报
留言热议
请登录后留言。

登录 注册