Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4052113
  • 博文数量: 272
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6476
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(272)

发布时间:2013-06-25 10:18:20

     世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表.........【阅读全文】

阅读(67511) | 评论(3) | 转发(11)

发布时间:2013-05-16 15:45:45

     本来是想把这部分内容放到《数据抓取的艺术(二)》之中。但是随着任务的完成,我越来越感觉到其中深深的趣味,现总结如下:     (1)时间     时间是一个与抓取规模相形而生的因素,数据规模越大,时间消耗往往越长。所以程序优化变得相当重要,要知道抓取时间越.........【阅读全文】

阅读(18895) | 评论(5) | 转发(4)

发布时间:2013-05-16 13:02:12

      接前文:《数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置》。一、程序优化程序优化:第一步开始:for i in range(startx,total):    for j in range(starty,total):  &.........【阅读全文】

阅读(20935) | 评论(0) | 转发(3)
给主人留下些什么吧!~~

五岳之巅2015-12-27 17:01

10502chenjiao:来看看你,一生平安~老师

谢谢,新年快乐!

回复  |  举报

10502chenjiao2015-12-24 14:49

来看看你,一生平安~老师

回复  |  举报

电影vs程序员2013-08-22 18:03

专家,厉害

回复  |  举报

skyfish8u82013-01-08 17:37

请我glance报错如下,安装glance过程都没报错,怎么解决?

root@testB:~# glance index                    
Failed to show index. Got error:
There was an error connecting to a server
Details: [Errno -2] Name or service not known

回复  |  举报

mkholy2012-11-25 10:05

老师,我是你教过的学生,我有个小问题想请教一下,我一直在用win系统服务器,但是搭建DZ的话cpu总是跑满,我刚换了个LINUX,但是有几个小问题我想咨询一下,能把邮箱给我吗

回复  |  举报
留言热议
请登录后留言。

登录 注册