python装饰器的一个妙用-yaofang123-ChinaUnix博客

读书使人明智！yaofang123.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yaofang123

博客访问： 1444466
博文数量： 264
博客积分： 5810
博客等级：大校
技术积分： 3528
用户组：普通用户
注册时间： 2011-03-13 17:15

文章分类

全部博文（264）

我的书单（1）
非技术（24）

新东西（0）

自我学习（11）

产品经理（1）

准爸爸指南（1）

生活篇（3）

时间管理（3）

职业规划（4）

其他（1）
android（0）
groovy（1）
Ruby（0）

Ruby心得（0）
Lua（0）

Lua高级（0）

Lua基础（0）
协议相关（1）
自研课程（1）

研5：安全（1）

研4：数据库存储（0）

研3：协议与网络（0）

研2：系统内核（0）

研1：算法与程序（0）
软件配置（7）

haxproxy（0）

IIS（0）

resin（1）

apache（3）

nginx（3）
IDE相关（6）
WEB前端（20）

CSS（4）

ExtJS（0）

JS技术（16）
虚拟化研究（1）
技术理论（13）

编程语言（2）

NoSQL（3）

key-value（2）

资料集（2）

分布式（3）
网络相关（1）
存储相关（2）
系统架构（17）

我的架构（2）

消息队列（2）

技术架构（3）

运维开发（2）

运维架构（2）

WEB架构（6）
开源软件（17）

squid（0）

SVN（13）

服务器运维（2）

puppet应用（0）

func应用（2）
php开发（7）

框架（5）

php高级应用（0）

php基础（2）
Mysql管理（7）

Mysql基础（3）

优化（3）

系统管理（0）

DBA相关（1）
Java开发（2）
Jsp开发（2）

ibatis（0）

spring（0）

maven（0）
python（62）

twisted框架（0）

python源码笔记（0）

Django精（15）

读书笔记（2）

python模块（3）

python前沿（2）

python源码分享（9）

python应用（14）

python基础（17）
C/C++（0）

C算法（0）

C基础开发（0）
linux相关（19）

rpm及yum（0）

linux命令（5）

酷shell（4）

Bind技术（1）

linux开发（0）

linux管理（9）
未分配的博文（53）

文章存档

2011年（264）

我的朋友

相关博文

python装饰器的一个妙用

分类： Python/Ruby

2011-05-30 21:15:51

我们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后，还有数据要抓取。简单点，我们就按照三层来看，那我们的代码就是如下：

def func_top(url): data_dict= {} #在页面上获取到子url sub_urls = xxxx data_list = [] for it in sub_urls: data_list.append(func_sub(it)) data_dict['data'] = data_list return data_dict def func_sub(url): data_dict= {} #在页面上获取到子url bottom_urls = xxxx data_list = [] for it in bottom_urls: data_list.append(func_bottom(it)) data_dict['data'] = data_list return data_dict def func_bottom(url): #获取数据 data = xxxx return data

func_top是上层页面的处理函数，func_sub是子页面的处理函数，func_bottom是最深层页面的处理函数，func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下，这样确实已经满足需求了，但是偏偏这个你要抓取的网站可能极不稳定，经常链接不上，导致数据拿不到。

于是这个时候你有两个选择:

遇到错误就停止，之后重新从断掉的位置开始重新跑
遇到错误继续，但是要在之后重新跑一遍，这个时候已经有的数据不希望再去网站拉一次，而只去拉没有取到的数据

对第一种方案基本无法实现，因为如果别人网站的url调整顺序，那么你记录的位置就无效了。那么只有第二种方案，说白了，就是要把已经拿到的数据cache下来，等需要的时候，直接从cache里面取。

OK，目标已经有了，怎么实现呢？

如果是在C++中的，这是个很麻烦的事情，而且写出来的代码必定丑陋无比，然而庆幸的是，我们用的是python，而python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器，如果之前取到数据，就直接取cache的数据；如果之前没有取到，那么就从网站拉取，并且存入cache中.

代码如下:

import os import hashlib def deco_args_recent_cache(category='dumps'): ''' 装饰器，返回最新cache的数据 ''' def deco_recent_cache(func): def func_wrapper(*args, **kargs): sig = _mk_cache_sig(*args, **kargs) data = _get_recent_cache(category, func.__name__, sig) if data is not None: return data data = func(*args, **kargs) if data is not None: _set_recent_cache(category, func.__name__, sig, data) return data return func_wrapper return deco_recent_cache def _mk_cache_sig(*args, **kargs): ''' 通过传入参数，生成唯一标识 ''' src_data = repr(args) + repr(kargs) m = hashlib.md5(src_data) sig = m.hexdigest() return sig def _get_recent_cache(category, func_name, sig): full_file_path = '%s/%s/%s' % (category, func_name, sig) if os.path.isfile(full_file_path): return eval(file(full_file_path,'r').read()) else: return None def _set_recent_cache(category, func_name, sig, data): full_dir_path = '%s/%s' % (category, func_name) if not os.path.isdir(full_dir_path): os.makedirs(full_dir_path) full_file_path = '%s/%s/%s' % (category, func_name, sig) f = file(full_file_path, 'w+') f.write(repr(data)) f.close()

然后，我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~

搞定！这样做最大的好处在于，因为top,sub,bottom，每一层都会dump数据，所以比如某个sub层数据dump之后，是根本不会走到他所对应的bottom层的，减少了大量的开销！

阅读(721) | 评论(0) | 转发(0) |

上一篇：python读取数据库生成JSON

下一篇：比较好的文本diff和patch解决方案［转载收藏］

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6