乐在其中aauto.blog.chinaunix.net
qqmmcc123
全部博文(206)
其他技术(28)
模拟技术(32)
算法练习(2)
快手源码(17)
快手练习(8)
参考文档(40)
2013年(13)
2012年(8)
2011年(33)
2010年(152)
songyong
风雨过后
wb123456
格伯纳
cynthia
Phyllis6
浪花小雨
珊珊最好
WJG17735
分类:
2010-09-03 23:45:40
io.open() function spider(domain,count = 0){ import inet.http; import web.url var domain_s = web.url.split(domain) io.print( "开始任务",domain ); /* if( io.exist( io.fullpath("/website/" + domain_s.host + ".txt") ) ){ io.print( "已完成的任务,跳过 ",domain ) return 0; } */ //声明HTTP对象 var http = inet.http() if( ..string.startWith(domain,"http://") == false ){ domain = "http://" + domain; } //url队列 var urlqueue = {domain}; var urldic = { } var pages = 0; //添加到URL队列 var function addurl(url){ if( url == domain) return; if(!url) return; //排重处理 if( not urldic[url] ){ urldic[url] = true; table.push( urldic,url); if( #urldic > 1000){ //缓冲区限制 urldic[ table.remove(urldic) ] = null; } table.push( urlqueue,url); } else{ //io.print("已排重处理",url) } } var tpagecontent = {} while(true){ sleep(10) pages ++; if( count && ( pages > count) ) break; var url = table.remove( urlqueue ) if(url=="")continue ; if(!url ) break; io.print( url,'\n' ) var str,errmsg = http.down(url); if(!str) continue ; ..table.push( tpagecontent, str ); for href in string.gmatch( str,"\s*href\s*=\s*\""?\
上一篇:创建没有文件名的aau文件
下一篇:快手项目资源文件批量添加工具
登录 注册