发布时间:2013-05-25 15:08:02
在使用python抓取网页的过程中,有的时候需要执行某些简单的javascript,以获得自己需要的内容,例如执行js里面的document.write或者document.getElementById等。自己解析js代码显然有点吃力不讨好,因此最好能找到一些可以解析执行js的python库。google之可以找到三个候选者,分别是微软的ScriptControl,v8的python.........【阅读全文】
发布时间:2013-05-25 15:00:01
如果要对XML文件进行模糊查找的话是一个比较麻烦的事情,Xpath表达式中没有像文件系统中的“*”或"?" 或者有像SQL表达式中的"%",这样的模糊查找的通配符。但是还好,在Xpath的函数中提供了像contains和match这样的函数。contains是一个字符串查找函数 语法是:fn:contains(string1,string2),表示如果 string1 .........【阅读全文】
发布时间:2013-05-06 15:48:56
1、简介VirtualEnv用于在一台机器上创建多个独立的python运行环境,类似于一个个沙盒环境。隔离项目之间的第三方库依赖,如A项目依赖xxx1.1,B项目依赖xxx1.2。为部署应用提供方便,把开发环境的虚拟环境打包到生产环境即可,不需要在服务器上再折腾一翻。尝试新的第三方库,而不用担心污染系统环境。.........【阅读全文】
发布时间:2013-05-05 15:31:35
scrapy 作为抓取框架,包括了spider,pipeline基础设施scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依赖自行解决)Xvfb (用于非Xwindow环境).........【阅读全文】