发布时间:2013-05-25 15:08:02
在使用python抓取网页的过程中,有的时候需要执行某些简单的javascript,以获得自己需要的内容,例如执行js里面的document.write或者document.getElementById等。自己解析js代码显然有点吃力不讨好,因此最好能找到一些可以解析执行js的python库。google之可以找到三个候选者,分别是微软的ScriptControl,v8的python.........【阅读全文】
发布时间:2013-05-06 15:48:56
1、简介VirtualEnv用于在一台机器上创建多个独立的python运行环境,类似于一个个沙盒环境。隔离项目之间的第三方库依赖,如A项目依赖xxx1.1,B项目依赖xxx1.2。为部署应用提供方便,把开发环境的虚拟环境打包到生产环境即可,不需要在服务器上再折腾一翻。尝试新的第三方库,而不用担心污染系统环境。.........【阅读全文】
发布时间:2013-05-05 15:31:35
scrapy 作为抓取框架,包括了spider,pipeline基础设施scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依赖自行解决)Xvfb (用于非Xwindow环境).........【阅读全文】
发布时间:2013-04-01 19:24:00
1.TracTrac拥有强大的bug管理 功能,并集成了Wiki 用于文档管理。它还支持代码管理工具Subversion ,这样可以在 bug管理和Wiki中方便地参考程序源代码。Trac有着比较强大的插件系统,可以通过插件来实现各种各样的功能,比如支持Git,或者增加自己的一些语法等等.如果你想了解wiki是如何实现的,.........【阅读全文】
发布时间:2013-03-31 17:32:15
第一步:最简单的函数,准备附加额外功能 点击(此处)折叠或打开# -*- coding:gbk -*- '''示例1: 最简单的函数,表示调用了两次''' def myfunc(): print("myfunc() called.") .........【阅读全文】