几个月前我设计了一个简洁的web抓取引擎,初衷来源于想建立一个自己的xx谱网站(我是一个音乐爱好者),但是手头的谱子实在是有限,于是对xx谱网站最大的最有名的一个网,产生了垂涎之念,如何把它的数年积累收入囊中呢?于是···
声明一下,我之前不懂任何搜索引擎的概念,这个引擎是我凭着最原始的理解开始做的,今天暂时写一个提纲,以飼读者。
简而言之,设计一个实用的抓取引擎,需要解决的问题提纲如下:
1)选取url入口;
2)爬行策略;
3)文件本地分类存储和条目数据库梳理;
随后会分别叙述,大家拭目以待,睡觉去了!
阅读(614) | 评论(0) | 转发(0) |