Chinaunix首页 | 论坛 | 博客

阴月皇朝hades.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 184236
博文数量： 36
博客积分： 2078
博客等级：大尉
技术积分： 330
用户组：普通用户
注册时间： 2009-04-09 17:13

文章分类

全部博文（36）

杂文（3）
JavaScript（2）
Python（1）
心情随笔（8）
Mysql（1）
PHP（13）
LINUX（6）
未分配的博文（2）

文章存档

2012年（1）

2011年（5）

2010年（9）

2009年（21）

我的朋友

flb_2001

最近访客

推荐博文

相关博文

抓取sina小说Python版

分类： Python/Ruby

2009-08-31 11:23:20

#coding=gb2312 #抓取sina读书频道小说 import re import urllib as ub booklist = [40438,27128,27204,'浴火凤凰'] titlePre = "

`(.?)<\/h1>" contentsPre = "`
`(.?)<\/div>" start = booklist[1] end = booklist[2]+1 for i in range(start,end): url = '%d_%d.html' % (booklist[0],i) ufh = ub.urlopen(url) cont = ufh.read() title = re.findall(titlePre,cont) contents = re.findall(contentsPre,cont) fh = open(booklist[3]+'.txt','a') wcs =title[0]+"\r\n\n"+contents[0]+"\r\n\n" fh.write(wcs) fh.close()`

阅读(1354) | 评论(0) | 转发(0) |

0

上一篇：又是框架

下一篇：js等比例缩放图片

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们