由于Chrome速度快,因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情,单开一个Driver做while 1循环,每隔5分钟扫描抓取目标对象。然而Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录:
-
Turn 1:硕博家园
-
2016-1-6 16:45:00
-
Mem 1.45GB
-
2016-1-6 17:06:45
-
Mem 1.43GB
-
chrome 38,000k
-
2016-1-6 17:14:14
-
-
Turn 2:考研版块
-
2016-1-6 17:19:14
-
Mem 1.43GB
-
chrome 53,780k
-
2016-1-6 17:28:17
-
Mem 1.32GB
-
chrome 49,672k
-
-
Turn 3:xxxx
-
2016-1-6 17:33:14
-
Mem 1.33GB
-
chrome 56,000k
-
2016-1-6 17:35:30
-
Mem 1.33GB
-
chrome 55,728k
-
-
Turn 4:lunwentougao
-
2016-1-6 17:33:14
-
Mem 1.33GB
-
chrome 56,000k
-
2016-1-6 17:28:17
-
Mem 1.32GB
-
chrome 49,672k
-
-
------------------------------------------
-
2016-01-11 13:26:56
-
2016-01-11 17:20:42
-
-
22:23:30
-
02:22:28
-
-
2016-01-12 06:50:12
-
2016-01-12 11:30:37
-
-
2016-01-12 13:13:28
-
2016-01-12 18:05:44
所以,我打算重新换个Driver试试,到官网的Download页面下() ,能够看到现在陆续出现了更多浏览器的Drvier,包括opera、Edge等。
我下载的是Firefox。当然必须首先在服务器上安装好完整的Firefox浏览器。然后可以在Python中简单调用。capabilities我还不太会用,所以注销了:
-
from selenium import webdriver
-
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
-
-
#driver = webdriver.Chrome('C:\Python27\Scripts\chromedriver')
-
#firefox_capabilities = DesiredCapabilities.FIREFOX
-
#firefox_capabilities['marionette'] = True
-
#firefox_capabilities['binary'] = u'C:\Python27\Scripts'
-
-
#driver = webdriver.Firefox(capabilities=firefox_capabilities)
-
driver = webdriver.Firefox()
经过一晚的测试,发现效果不错,没有什么问题,机器一直在正确的轨道上运行着:
So,写这篇博文其实可以总结为一句话:Driver建议用Firefox。
阅读(1140) | 评论(0) | 转发(0) |