全部博文(272)
发布时间:2016-12-23 01:04:17
这篇文章的题目取得很大,主要是适用面确实广。如果只是开发环境下,有限的数据量其实不足以考虑这个问题。然而,在生产环境下,数据量往往比较大,已经到了使用phpmyadmin导出sql文件大小为0的情况。 我最近在抓盗版书的数据,其中一个表就已经达到100M了,含有一百三十.........【阅读全文】
发布时间:2016-12-15 09:31:07
今天在抓取淘宝网网页的时候,使用了:#店名shopname = driver.find_element_by_xpath(".//*[@id='page']/div[2]/div/div[2]/ul/li[1]/a/span").text.strip()#掌柜名dealername = driver.find_element_by_xpath("./html/head/title").text.strip().........【阅读全文】
发布时间:2016-10-07 06:03:23
开发环境:Win10+Python3.5+Selenium2.53.6+IE11,均为64 bit硬件环境:联想MIIX700语言环境:English(US)浏览器:Firefox(46.0.1)、IE(11.0.10240.16431)、Chrome(53.0.2785.143),均为64 bit刚才测试了一下,代码如下:from selenium import webdriverfrom bs4 import BeautifulSoup.........【阅读全文】
发布时间:2016-10-07 05:23:53
开发环境:Win10+Python3.5+Selenium+IE11硬件环境:联想MIIX700语言环境:English(US)在做数据爬取得时候,发现IE Driver出现白屏,跟着提示:“This is the initial start page for the WebDriver server“几经寻找,解决了问题。问题源自IE高版本的自我保护功能,使Selenium的切入机制遇到安全阻碍。解决方案如.........【阅读全文】
发布时间:2016-03-19 10:40:54
别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功! &nbs.........【阅读全文】
发布时间:2016-01-13 09:28:14
由于Chrome速度快,因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情,单开一个Driver做while 1循环,每隔5分钟扫描抓取目标对象。然而Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录:Turn 1:硕博家园2016.........【阅读全文】
发布时间:2015-09-02 17:20:15
<br /><span style="color:#000000;"></span><span style="color:#000000;">1、前言</span><br /><span style="color:#000000;"> 前两天开了两个进程,把Python抓回的数据链接并发写入Mysql中,结果显示出错。后来一查才知道需要自己设置锁,好生麻烦。这时PostgreSQL进入了我的视野,因为这家伙原生.........【阅读全文】
发布时间:2015-08-22 10:49:07
selenium包含:Selenium IDE、Selenium Remote Control、Selenium Grid和Selenium WebDriver。具体而言:
1. Selenium IDE作为Firefox上的一个插件,提供录制功能,个人观点,如果能手写代码,就不要用这个东西。
2. Seleniu.........【阅读全文】
发布时间:2014-08-01 00:56:22
作者:Glen.He 出处:http://www.cnblogs.com/puresoul/ 1.1 下载selenium2.0的包官方download包地址:http://code.google.com/p/selenium/downloads/list官方User Guide: http://seleniumhq.org/docs/官方API: http://selenium.googlec.........【阅读全文】
发布时间:2014-01-14 20:34:56
京东图书评论有非常丰富的信息,这里面就包含了购买日期、书名、作者、好评、中评、差评等等。以购买日期为例,使用Python + Mysql的搭配进行实现,程序不大,才85行。相关的解释我都在程序里加注了:from selenium import webdriverfrom bs4 import BeautifulSoupimport re.........【阅读全文】
skyfish8u82013-01-08 17:37
请我glance报错如下,安装glance过程都没报错,怎么解决?
root@testB:~# glance index
Failed to show index. Got error:
There was an error connecting to a server
Details: [Errno -2] Name or service not known