如何设计一个简洁的web抓取引擎-tomqq-ChinaUnix博客

文章分类

文章存档

2008年（14）

我的朋友

相关博文

如何设计一个简洁的web抓取引擎

分类： Java

2008-09-21 23:58:11

几个月前我设计了一个简洁的web抓取引擎，初衷来源于想建立一个自己的xx谱网站（我是一个音乐爱好者），但是手头的谱子实在是有限，于是对xx谱网站最大的最有名的一个网，产生了垂涎之念，如何把它的数年积累收入囊中呢？于是···

声明一下，我之前不懂任何搜索引擎的概念，这个引擎是我凭着最原始的理解开始做的，今天暂时写一个提纲，以飼读者。

简而言之，设计一个实用的抓取引擎，需要解决的问题提纲如下：

1）选取url入口；

2）爬行策略；

3）文件本地分类存储和条目数据库梳理；

随后会分别叙述，大家拭目以待，睡觉去了！

阅读(614) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们