• 博客访问: 3576844
  • 博文数量: 296
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 7328
  • 用 户 组: 普通用户
  • 注册时间: 2016-07-06 14:28
  • 认证徽章:
个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文(296)

文章存档

2017年(3)

2016年(5)

2015年(17)

2014年(77)

2013年(193)

2012年(1)

微信关注

IT168企业级官微



微信号:IT168qiye



系统架构师大会



微信号:SACC2013

订阅
热词专题
友情链接

发布时间:2015-01-26 21:07:22

一、简要介绍        word2vec是Google在2013年发布的一个开源项目,它能够将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec项目详细信息请参见这里。        .........【阅读全文】

阅读(2718) | 评论(0) | 转发(0)

发布时间:2014-08-28 12:29:48

        中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配.........【阅读全文】

阅读(9290) | 评论(8) | 转发(5)

发布时间:2014-08-11 00:07:59

一、PageRank        算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。,由拉里-佩奇提出。        简单说,PageRank算法是计算每个网页的综合得.........【阅读全文】

阅读(3294) | 评论(1) | 转发(1)

发布时间:2014-08-11 00:06:43

一、简介        htmlcxx是一款简洁的,非验证式的,用C++编写的css1和html解析器。和其他的几款Html解析器相比,它具有以下的几个特点:        (1)使用由KasperPeeters编写的强大的tree.h库文件,可以实现类似STL的DOM树遍历和导航.........【阅读全文】

阅读(3377) | 评论(1) | 转发(1)

发布时间:2014-08-04 12:32:10

一、简介        Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。        Larbin爬虫结构图及主要模块对应关系如下图所示:            .........【阅读全文】

阅读(5030) | 评论(1) | 转发(8)
给主人留下些什么吧!~~

silence06072014-09-20 13:30

期待redis运维管理的心得=。=

回复  |  举报

scq2099yt2013-08-23 11:10

电影vs程序员:期待新文章

感谢鼓励

回复  |  举报

电影vs程序员2013-08-22 18:15

期待新文章

回复  |  举报

scq2099yt2013-08-15 10:01

vincent2010_:博主,目前从事运维工作,有没有QQ联系方式,

14046300

回复  |  举报

vincent2010_2013-08-14 18:18

博主,目前从事运维工作,有没有QQ联系方式,

回复  |  举报
留言热议
请登录后留言。

登录 注册