Chinaunix首页 | 论坛 | 认证专区 | 博客 登录 | 注册

离不开大数据的社会计算lk.blog.chinaunix.net

人在美国,有事QQ:172746574

  • 博客访问: 3215083
  • 博文数量: 299
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6465
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(299)

微信关注

IT168企业级官微



微信号:IT168qiye



系统架构师大会



微信号:SACC2013

订阅
热词专题

发布时间:2016-10-07 05:23:53

开发环境:Win10+Python3.5+Selenium+IE11硬件环境:联想MIIX700语言环境:English(US)在做数据爬取得时候,发现IE Driver出现白屏,跟着提示:“This is the initial start page for the WebDriver server“几经寻找,解决了问题。问题源自IE高版本的自我保护功能,使Selenium的切入机制遇到安全阻碍。解决方案如.........【阅读全文】

阅读(2003) | 评论(0) | 转发(0)

发布时间:2016-03-19 10:40:54

      别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!     &nbs.........【阅读全文】

阅读(33220) | 评论(0) | 转发(1)

发布时间:2016-01-18 13:35:37

      我在阿里云上碰到了这个问题,不论是64位还是32位都不行,如下图所示:      阿里官方给出的方案是安装时不选择Pip,如下图:      但是,为什么会这样呢?我查阅了Python官方Bug,在这里有回答http://bugs.python.org/issue10002.........【阅读全文】

阅读(9786) | 评论(0) | 转发(0)

发布时间:2016-01-13 09:28:14

   由于Chrome速度快,因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情,单开一个Driver做while 1循环,每隔5分钟扫描抓取目标对象。然而Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录:Turn 1:硕博家园2016.........【阅读全文】

阅读(14336) | 评论(2) | 转发(1)

发布时间:2015-09-15 17:39:55

      下载make好word2vec后,生成以下5个命令:
&nb.........【阅读全文】

阅读(6324) | 评论(0) | 转发(0)

发布时间:2015-09-02 17:20:15

<br /><span style="color:#000000;"></span><span style="color:#000000;">1、前言</span><br /><span style="color:#000000;">&nbsp; &nbsp; &nbsp; 前两天开了两个进程,把Python抓回的数据链接并发写入Mysql中,结果显示出错。后来一查才知道需要自己设置锁,好生麻烦。这时PostgreSQL进入了我的视野,因为这家伙原生.........【阅读全文】

阅读(5732) | 评论(0) | 转发(0)

发布时间:2015-08-22 10:49:07

        selenium包含:Selenium IDE、Selenium Remote Control、Selenium Grid和Selenium WebDriver。具体而言:
      1. Selenium IDE作为Firefox上的一个插件,提供录制功能,个人观点,如果能手写代码,就不要用这个东西。
      2. Seleniu.........【阅读全文】

阅读(3002) | 评论(0) | 转发(0)

发布时间:2015-07-31 12:49:10

在Win8下经历惨痛的过程,耗费无数时间,结果依旧安装失败。
现在转战到Ubuntu14.04下。

首先,SuperScript需要Node.js,但版本最好不要高于0.10,我用apt-get install nodejs,安装上的是nodejs的0.10.20,但又发现报错说nodejs版本应该大于0.10.28好像。然后,删除掉原来安装的nodejs和npm:
su.........【阅读全文】

阅读(3242) | 评论(0) | 转发(0)

发布时间:2014-12-11 22:36:22

     最近需要采集被试浏览过的网页记录,但发现3男3女都是使用360浏览器,极速和安全两款。这些浏览器都能看到浏览记录,然而存在两个问题:一是时间仅精确到分钟而不是秒,要知道1分钟内用户可能会浏览好几个网页;二是无法自行导出全部浏览记录。      于是,我就开始探索如何解决.........【阅读全文】

阅读(11606) | 评论(12) | 转发(8)

发布时间:2014-12-11 17:37:40

     这个问题困扰我很久了,本来用Sublime编辑好Python文件,Ctrl+B即可,不知道怎么回事就是无法执行,控制台没有任何结果返回。最后,不得不回到Python IDLE的原始社会中。     今天,我又试着修改Preference下的配置文件,也是无果,百度一搜发现很多人都有这样的问题。于是,我就感觉.........【阅读全文】

阅读(7036) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

五岳之巅2015-12-27 17:01

10502chenjiao:来看看你,一生平安~老师

谢谢,新年快乐!

回复  |  举报

10502chenjiao2015-12-24 14:49

来看看你,一生平安~老师

回复  |  举报

电影vs程序员2013-08-22 18:03

专家,厉害

回复  |  举报

skyfish8u82013-01-08 17:37

请我glance报错如下,安装glance过程都没报错,怎么解决?

root@testB:~# glance index                    
Failed to show index. Got error:
There was an error connecting to a server
Details: [Errno -2] Name or service not known

回复  |  举报

mkholy2012-11-25 10:05

老师,我是你教过的学生,我有个小问题想请教一下,我一直在用win系统服务器,但是搭建DZ的话cpu总是跑满,我刚换了个LINUX,但是有几个小问题我想咨询一下,能把邮箱给我吗

回复  |  举报
留言热议
请登录后留言。

登录 注册