刚刚完成抓取网页程序,,,分成两部分:
第一部分:仅抓取地址,,,最快一秒1200多个;
第二部分:获得页面属性,,,属性分为:title,head,去掉标记的纯内容,大小,子链接个数,重要性计算等;
第三部分:并发程序,,,增加单位时间内的获得完整链接的个数;
第四部分:程序自动运行的脚本,,,这个他们来完成了,,,首先运行抓取地址程序,,,运行一个小时,,,完成后立刻运行获得页面属性程序2个小时,,,完成后休息一个小时,,,再从头运行。
原计划是一次性就把一个网页抓完的,,,速度太慢,,,就把这个过程分成了两部分(是得到谢立超的提示),,,先抓地址,,,再根据数据库里的地址获得属性。
阅读(1624) | 评论(0) | 转发(0) |