python笔记15 小的网络爬虫实现-adustdu2015-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

adustdu2015的ChinaUnix博客

首页　| 　博文目录　| 　关于我

博客访问： 281814
博文数量： 113
博客积分： 0
博客等级：民兵
技术积分： 1044
用户组：普通用户
注册时间： 2015-02-15 16:09

文章分类

全部博文（113）

NFS（1）
xampp（2）
arm-linux-gcc（1）
arm-linux-gcc&nb（1）
JAVA（6）
python（16）
PHP基础（9）
gcc（4）
C语言（17）
mysql linux（7）
简单（8）

嵌入式硬件学习（7）
Linux socke（41）
未分配的博文（0）

文章存档

2016年（5）

2015年（108）

我的朋友

manshukw

最近访客

推荐博文

相关博文

python笔记15 小的网络爬虫实现

分类： Python/Ruby

2015-10-11 00:43:06

#一个小爬虫
#下载贴吧或空间张所有图片
#引入urllib模块
#获取静态网页
#在静态网页中正则选出src=...jpg
#下载下来

点击(此处)折叠或打开

#!/usr/bin/python
import re
import urllib
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def getImg(html):
reg=r'src="(.*?\.jpg)" '
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
x=0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
html= getHtml("%CA%AF%BC%D2%D7%AF%CC%FA%B5%C0%B4%F3%D1%A7&fr=index")
getImg(html)

阅读(1423) | 评论(0) | 转发(0) |

0

上一篇：python笔记14正则表达式编译标志

下一篇：python笔记4

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们