阿里巴巴是个快乐的青年
发布时间:2015-01-26 21:07:22
一、简要介绍 word2vec是Google在2013年发布的一个开源项目,它能够将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec项目详细信息请参见这里。 .........【阅读全文】
发布时间:2014-08-28 12:29:48
中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配.........【阅读全文】
发布时间:2014-08-20 13:03:43
互联网的海量数据信息,使得通用搜索引擎提供给用户的不相关信息太多,垂直搜索引擎专门针对某一类主题信息,以避免通用搜索引擎带来的“噪音”。 垂直搜索引擎通常由四个部分组成:信息采集模块、索引模块、查询模块和UI模块组成,换句话说.........【阅读全文】
发布时间:2014-08-11 00:07:59
一、PageRank 算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。,由拉里-佩奇提出。 简单说,PageRank算法是计算每个网页的综合得.........【阅读全文】