小爬虫，学习学习正则运用-dsy851009-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

加油！qq395085498，欢迎探讨

首页　| 　博文目录　| 　关于我

博客访问： 2195696
博文数量： 104
博客积分： 206
博客等级：入伍新兵
技术积分： 1829
用户组：普通用户
注册时间： 2012-09-12 10:24

个人简介

效字当先，以质为本。测试开发入行十余年，辉煌过，迷茫过，持续探寻人生的激情和前进的步伐！好好生活，认真工作！

文章分类

全部博文（104）

大模型应用（1）
质量（0）
web前端（1）
Java自动化（6）
性能测试（4）
pig学习（1）
软件测试面试题（2）
持续集成（4）
软件测试（5）
测试BUG部分记录（2）
hadoop学习（13）
python学习（52）
linux学习（13）
未分配的博文（0）

文章存档

2024年（1）

2019年（2）

2018年（4）

2017年（7）

2016年（3）

2015年（14）

2014年（33）

2013年（31）

2012年（9）

我的朋友

最近访客

推荐博文

相关博文

小爬虫，学习学习正则运用

分类： Python/Ruby

2014-03-16 19:48:58

点击(此处)折叠或打开

import re
import urllib
import os
def getHtml(url):
page_html = urllib.urlopen(url).read()
return page_html
def getImg(page_html,imgdir):
reg = r'src="(.*?\.jpg)" width'
imgre = re.compile(reg)
imglist = re.findall(imgre,page_html)
x = 0
for i in imglist:
imgfile = os.path.join(os.path.abspath("%s%s.jpg")%(imgdir,x))
urllib.urlretrieve(i,imgfile)
x = x+1
if __name__ == '__main__':
page_html = getHtml("")
getImg(page_html,"img/")

阅读(1766) | 评论(0) | 转发(0) |

0

上一篇：Python基础07 函数

下一篇：统计QQ聊天群中各个账号的发言次数（该版本未使用正则表达式）

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们