scrapy结合webkit抓取js生成的页面-nbyh100-ChinaUnix博客

ZhangJiuzhou的ChinaUnix博客

首页　| 　博文目录　| 　关于我

nbyh100

博客访问： 65825
博文数量： 20
博客积分： 0
博客等级：民兵
技术积分： 198
用户组：普通用户
注册时间： 2013-03-31 17:15

文章分类

全部博文（20）

IOS（2）
xpath（2）
linux（6）
运维工具（1）
php（4）
python（5）
未分配的博文（0）

文章存档

2014年（1）

2013年（19）

我的朋友

相关博文

scrapy结合webkit抓取js生成的页面

分类： Python/Ruby

2013-05-05 15:31:35

scrapy 作为抓取框架，包括了spider,pipeline基础设施

scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到，因此，一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有

python-webkit (相关依赖自行解决)

Xvfb (用于非Xwindow环境)

开发downloader middleware

点击(此处)折叠或打开

from scrapy.http import Request, FormRequest, HtmlResponse
import gtk
import webkit
import jswebkit
import settings
class WebkitDownloader( object ):
def process_request( self, request, spider ):
if spider.name in settings.WEBKIT_DOWNLOADER:
if( type(request) is not FormRequest ):
webview = webkit.WebView()
webview.connect( 'load-finished', lambda v,f: gtk.main_quit() )
webview.load_uri( request.url )
gtk.main()
js = jswebkit.JSContext( webview.get_main_frame().get_global_context() )
renderedBody = str( js.EvaluateScript( 'document.body.innerHTML' ) )
return HtmlResponse( request.url, body=renderedBody )

配置
在scrapy的settings.py中加入

点击(此处)折叠或打开

#which spider should use WEBKIT
WEBKIT_DOWNLOADER=['ccb']
DOWNLOADER_MIDDLEWARES = {
'rate_crawler.dowloader.WebkitDownloader': 543,
}
import os
os.environ["DISPLAY"] = ":0"

启动 Xvfb (假设DISPLAY=:0)

要与settings.py中的DISPLAY对应（本例中是:0)。

scrapy crawl xxx

阅读(2912) | 评论(0) | 转发(0) |

上一篇：CentOS5下安装gearman1.1.6，并使用Mysql作为持久化队列

下一篇：python虚拟环境virtualenv的使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6