阿里巴巴是个快乐的青年
全部博文(291)
发布时间:2015-01-26 21:07:22
一、简要介绍 word2vec是Google在2013年发布的一个开源项目,它能够将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec项目详细信息请参见这里。 .........【阅读全文】
发布时间:2014-08-28 12:29:48
中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配.........【阅读全文】
发布时间:2014-08-11 00:07:59
一、PageRank 算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。,由拉里-佩奇提出。 简单说,PageRank算法是计算每个网页的综合得.........【阅读全文】
发布时间:2014-08-11 00:06:43
一、简介 htmlcxx是一款简洁的,非验证式的,用C++编写的css1和html解析器。和其他的几款Html解析器相比,它具有以下的几个特点: (1)使用由KasperPeeters编写的强大的tree.h库文件,可以实现类似STL的DOM树遍历和导航.........【阅读全文】
发布时间:2014-01-22 00:08:06
因为中文文本中,词和词之间不像英文一样存在边界,所以中文分词是一个专业处理中文信息的搜索引擎首先面对的问题,需要靠程序来切分出词。一、Lucene中的中文分词 Lucene在中处理中文的常用方法有三种,以“咬死猎人的狗”为例说.........【阅读全文】