Chinaunix首页 | 论坛 | 博客
  • 博客访问: 64283
  • 博文数量: 20
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 198
  • 用 户 组: 普通用户
  • 注册时间: 2013-03-31 17:15
文章分类

全部博文(20)

文章存档

2014年(1)

2013年(19)

我的朋友

发布时间:2013-05-25 15:08:02

在使用python抓取网页的过程中,有的时候需要执行某些简单的javascript,以获得自己需要的内容,例如执行js里面的document.write或者document.getElementById等。自己解析js代码显然有点吃力不讨好,因此最好能找到一些可以解析执行js的python库。google之可以找到三个候选者,分别是微软的ScriptControl,v8的python.........【阅读全文】

阅读(1205) | 评论(0) | 转发(0)

发布时间:2013-05-25 15:00:01

如果要对XML文件进行模糊查找的话是一个比较麻烦的事情,Xpath表达式中没有像文件系统中的“*”或"?" 或者有像SQL表达式中的"%",这样的模糊查找的通配符。但是还好,在Xpath的函数中提供了像contains和match这样的函数。contains是一个字符串查找函数  语法是:fn:contains(string1,string2),表示如果 string1 .........【阅读全文】

阅读(1434) | 评论(0) | 转发(0)

发布时间:2013-05-25 14:48:10

表达式引用./author当前上下文中的所有  元素。注意,此表达式等效于下一行中的表达式。author.........【阅读全文】

阅读(445) | 评论(0) | 转发(0)

发布时间:2013-05-06 15:48:56

1、简介VirtualEnv用于在一台机器上创建多个独立的python运行环境,类似于一个个沙盒环境。隔离项目之间的第三方库依赖,如A项目依赖xxx1.1,B项目依赖xxx1.2。为部署应用提供方便,把开发环境的虚拟环境打包到生产环境即可,不需要在服务器上再折腾一翻。尝试新的第三方库,而不用担心污染系统环境。.........【阅读全文】

阅读(1386) | 评论(0) | 转发(0)

发布时间:2013-05-05 15:31:35

scrapy 作为抓取框架,包括了spider,pipeline基础设施scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依赖自行解决)Xvfb (用于非Xwindow环境).........【阅读全文】

阅读(2887) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册