Chinaunix首页 | 论坛 | 博客
  • 博客访问: 181399
  • 博文数量: 36
  • 博客积分: 2078
  • 博客等级: 大尉
  • 技术积分: 330
  • 用 户 组: 普通用户
  • 注册时间: 2009-04-09 17:13
文章分类

全部博文(36)

文章存档

2012年(1)

2011年(5)

2010年(9)

2009年(21)

我的朋友

分类: Python/Ruby

2009-08-31 11:23:20


#coding=gb2312
#抓取sina读书频道小说
import re
import urllib as ub
booklist = [40438,27128,27204,'浴火凤凰']
titlePre = "

(.*?)<\/h1>"
contentsPre = "
(.*?)<\/div>"
start = booklist[1]
end = booklist[2]+1
for i in range(start,end):
    url = '%d_%d.html' % (booklist[0],i)
    ufh = ub.urlopen(url)
    cont = ufh.read()
    title = re.findall(titlePre,cont)
    contents = re.findall(contentsPre,cont)
    fh = open(booklist[3]+'.txt','a')
    wcs =title[0]+"\r\n\n"+contents[0]+"\r\n\n"
    fh.write(wcs)
    fh.close()

阅读(1315) | 评论(0) | 转发(0) |
0

上一篇:又是框架

下一篇:js等比例缩放图片

给主人留下些什么吧!~~