Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1174300
  • 博文数量: 272
  • 博客积分: 3899
  • 博客等级: 中校
  • 技术积分: 4734
  • 用 户 组: 普通用户
  • 注册时间: 2012-06-15 14:53
文章分类

全部博文(272)

文章存档

2012年(272)

分类: 系统运维

2012-06-26 17:05:12

之前planet一直是抓取rss,有的只有摘要,很不方便。

现在新增了全文镜像功能,将在抓取RSS后再次抓取该文章的全文,储存在secinn。




如图,点击 “查看镜像” 即可. 以前的rss内容可能不会再单独抓取,但是未来的文章都会去尝试抓取全文。

在GAE中实现很简单,使用新的 taskqueue功能即可。

from google.appengine.api.labs import taskqueue
......

# Add the task to the default queue.
taskqueue.add(url='/xxx', method='GET')



全文抓取功能使用了harry开发的ACS项目进行XSS防范,该项目是引入一个js,阻止所有页面中在自定义白名单外的脚本内容加载,意在JS层面实现mozilla 的 content security policy 功能,由于是js写的,所以是跨浏览器的。




这个项目会开源,目前还在开发阶段,有兴趣的也可以看看实现的代码。
阅读(1135) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~