知乎:http://www.zhihu.com/people/chanpinjinglizhilu
发布时间:2015-01-17 17:40:53
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。架构scrapy中文手册 http://scrapy-chs.readthedocs.org/zh_CN/latest/1.安装SCRAPYhttp://scrapy-chs.readthedocs.org/zh_CN/latest/intro/install.html2.创建一个.........【阅读全文】
发布时间:2014-11-03 11:00:07
中文分词一直都是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本.........【阅读全文】