Chinaunix首页 | 论坛 | 博客
  • 博客访问: 98425
  • 博文数量: 20
  • 博客积分: 1240
  • 博客等级: 中尉
  • 技术积分: 289
  • 用 户 组: 普通用户
  • 注册时间: 2008-05-02 09:47
文章存档

2010年(1)

2009年(5)

2008年(14)

我的朋友

分类: Java

2008-09-21 23:58:11

几个月前我设计了一个简洁的web抓取引擎,初衷来源于想建立一个自己的xx谱网站(我是一个音乐爱好者),但是手头的谱子实在是有限,于是对xx谱网站最大的最有名的一个网,产生了垂涎之念,如何把它的数年积累收入囊中呢?于是···
声明一下,我之前不懂任何搜索引擎的概念,这个引擎是我凭着最原始的理解开始做的,今天暂时写一个提纲,以飼读者。
简而言之,设计一个实用的抓取引擎,需要解决的问题提纲如下:
1)选取url入口;
2)爬行策略;
3)文件本地分类存储和条目数据库梳理;
随后会分别叙述,大家拭目以待,睡觉去了!
阅读(569) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~