Chinaunix首页 | 论坛 | 博客
  • 博客访问: 233802
  • 博文数量: 113
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1044
  • 用 户 组: 普通用户
  • 注册时间: 2015-02-15 16:09
文章分类

全部博文(113)

文章存档

2016年(5)

2015年(108)

我的朋友

分类: Python/Ruby

2015-10-11 00:43:06

#一个小爬虫
#下载贴吧或空间张所有图片
#引入urllib模块
#获取静态网页
#在静态网页中正则选出src=...jpg
#下载下来

点击(此处)折叠或打开

  1. #!/usr/bin/python
  2. import re
  3. import urllib
  4. def getHtml(url):
  5.     page=urllib.urlopen(url)
  6.     html=page.read()
  7.     return html
  8. def getImg(html):
  9.     reg=r'src="(.*?\.jpg)" '
  10.     imgre=re.compile(reg)
  11.     imglist=re.findall(imgre,html)
  12.     x=0
  13.     for imgurl in imglist:
  14.         urllib.urlretrieve(imgurl,'%s.jpg' % x)
  15.         x+=1
  16. html= getHtml("%CA%AF%BC%D2%D7%AF%CC%FA%B5%C0%B4%F3%D1%A7&fr=index")
  17. getImg(html)


阅读(1136) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~