opensearch的进度-zengfucen-ChinaUnix博客

ChinaUnix博客

首页　| 　博文目录　| 　关于我

zengfucen

博客访问： 416049
博文数量： 68
博客积分： 2500
博客等级：少校
技术积分： 728
用户组：普通用户
注册时间： 2006-10-14 00:19

文章分类

全部博文（68）

其它（13）
学习研究（49）
日记（2）
心情日记（3）
未分配的博文（1）

文章存档

2011年（1）

2009年（1）

2008年（17）

2007年（30）

2006年（19）

我的朋友

cugb_cat

相关博文

opensearch的进度

分类：系统运维

2006-10-14 21:38:15

刚刚完成抓取网页程序，，，分成两部分：

第一部分：仅抓取地址，，，最快一秒1200多个;
第二部分：获得页面属性，，，属性分为：title，head，去掉标记的纯内容，大小，子链接个数，重要性计算等;
第三部分：并发程序，，，增加单位时间内的获得完整链接的个数;
第四部分：程序自动运行的脚本，，，这个他们来完成了，，，首先运行抓取地址程序，，，运行一个小时，，，完成后立刻运行获得页面属性程序2个小时，，，完成后休息一个小时，，，再从头运行。

原计划是一次性就把一个网页抓完的，，，速度太慢，，，就把这个过程分成了两部分（是得到谢立超的提示），，，先抓地址，，，再根据数据库里的地址获得属性。

阅读(1636) | 评论(0) | 转发(0) |

上一篇：简单构划Linux集群

下一篇：vim颜色设置

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6