Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4056766
  • 博文数量: 272
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6476
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(272)

发布时间:2016-12-23 01:04:17

       这篇文章的题目取得很大,主要是适用面确实广。如果只是开发环境下,有限的数据量其实不足以考虑这个问题。然而,在生产环境下,数据量往往比较大,已经到了使用phpmyadmin导出sql文件大小为0的情况。      我最近在抓盗版书的数据,其中一个表就已经达到100M了,含有一百三十.........【阅读全文】

阅读(6715) | 评论(0) | 转发(0)

发布时间:2016-12-15 09:31:07

        今天在抓取淘宝网网页的时候,使用了:#店名shopname = driver.find_element_by_xpath(".//*[@id='page']/div[2]/div/div[2]/ul/li[1]/a/span").text.strip()#掌柜名dealername = driver.find_element_by_xpath("./html/head/title").text.strip().........【阅读全文】

阅读(30695) | 评论(0) | 转发(0)

发布时间:2016-10-07 06:03:23

开发环境:Win10+Python3.5+Selenium2.53.6+IE11,均为64 bit硬件环境:联想MIIX700语言环境:English(US)浏览器:Firefox(46.0.1)、IE(11.0.10240.16431)、Chrome(53.0.2785.143),均为64 bit刚才测试了一下,代码如下:from selenium import webdriverfrom bs4 import BeautifulSoup.........【阅读全文】

阅读(6154) | 评论(0) | 转发(0)

发布时间:2016-10-07 05:23:53

开发环境:Win10+Python3.5+Selenium+IE11硬件环境:联想MIIX700语言环境:English(US)在做数据爬取得时候,发现IE Driver出现白屏,跟着提示:“This is the initial start page for the WebDriver server“几经寻找,解决了问题。问题源自IE高版本的自我保护功能,使Selenium的切入机制遇到安全阻碍。解决方案如.........【阅读全文】

阅读(4447) | 评论(0) | 转发(0)

发布时间:2016-03-19 10:40:54

      别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!     &nbs.........【阅读全文】

阅读(35085) | 评论(0) | 转发(1)

发布时间:2016-01-13 09:28:14

   由于Chrome速度快,因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情,单开一个Driver做while 1循环,每隔5分钟扫描抓取目标对象。然而Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录:Turn 1:硕博家园2016.........【阅读全文】

阅读(16508) | 评论(2) | 转发(1)

发布时间:2015-09-02 17:20:15

<br /><span style="color:#000000;"></span><span style="color:#000000;">1、前言</span><br /><span style="color:#000000;">&nbsp; &nbsp; &nbsp; 前两天开了两个进程,把Python抓回的数据链接并发写入Mysql中,结果显示出错。后来一查才知道需要自己设置锁,好生麻烦。这时PostgreSQL进入了我的视野,因为这家伙原生.........【阅读全文】

阅读(11027) | 评论(0) | 转发(0)

发布时间:2015-08-22 10:49:07

        selenium包含:Selenium IDE、Selenium Remote Control、Selenium Grid和Selenium WebDriver。具体而言:
      1. Selenium IDE作为Firefox上的一个插件,提供录制功能,个人观点,如果能手写代码,就不要用这个东西。
      2. Seleniu.........【阅读全文】

阅读(4103) | 评论(0) | 转发(0)

发布时间:2014-08-01 00:56:22

作者:Glen.He 出处:http://www.cnblogs.com/puresoul/ 1.1  下载selenium2.0的包官方download包地址:http://code.google.com/p/selenium/downloads/list官方User Guide:   http://seleniumhq.org/docs/官方API:        http://selenium.googlec.........【阅读全文】

阅读(5857) | 评论(0) | 转发(0)

发布时间:2014-01-14 20:34:56

   京东图书评论有非常丰富的信息,这里面就包含了购买日期、书名、作者、好评、中评、差评等等。以购买日期为例,使用Python + Mysql的搭配进行实现,程序不大,才85行。相关的解释我都在程序里加注了:from selenium import webdriverfrom bs4 import BeautifulSoupimport re.........【阅读全文】

阅读(15346) | 评论(7) | 转发(3)
给主人留下些什么吧!~~

五岳之巅2015-12-27 17:01

10502chenjiao:来看看你,一生平安~老师

谢谢,新年快乐!

回复  |  举报

10502chenjiao2015-12-24 14:49

来看看你,一生平安~老师

回复  |  举报

电影vs程序员2013-08-22 18:03

专家,厉害

回复  |  举报

skyfish8u82013-01-08 17:37

请我glance报错如下,安装glance过程都没报错,怎么解决?

root@testB:~# glance index                    
Failed to show index. Got error:
There was an error connecting to a server
Details: [Errno -2] Name or service not known

回复  |  举报

mkholy2012-11-25 10:05

老师,我是你教过的学生,我有个小问题想请教一下,我一直在用win系统服务器,但是搭建DZ的话cpu总是跑满,我刚换了个LINUX,但是有几个小问题我想咨询一下,能把邮箱给我吗

回复  |  举报
留言热议
请登录后留言。

登录 注册