Chinaunix首页 | 论坛 | 博客
  • 博客访问: 412411
  • 博文数量: 68
  • 博客积分: 2500
  • 博客等级: 少校
  • 技术积分: 728
  • 用 户 组: 普通用户
  • 注册时间: 2006-10-14 00:19
文章分类

全部博文(68)

文章存档

2011年(1)

2009年(1)

2008年(17)

2007年(30)

2006年(19)

我的朋友

分类: 系统运维

2006-10-14 21:38:15

刚刚完成抓取网页程序,,,分成两部分:

第一部分:仅抓取地址,,,最快一秒1200多个;
第二部分:获得页面属性,,,属性分为:title,head,去掉标记的纯内容,大小,子链接个数,重要性计算等;
第三部分:并发程序,,,增加单位时间内的获得完整链接的个数;
第四部分:程序自动运行的脚本,,,这个他们来完成了,,,首先运行抓取地址程序,,,运行一个小时,,,完成后立刻运行获得页面属性程序2个小时,,,完成后休息一个小时,,,再从头运行。

原计划是一次性就把一个网页抓完的,,,速度太慢,,,就把这个过程分成了两部分(是得到谢立超的提示),,,先抓地址,,,再根据数据库里的地址获得属性。
阅读(1619) | 评论(0) | 转发(0) |
0

上一篇:简单构划Linux集群

下一篇:vim颜色设置

给主人留下些什么吧!~~