Chinaunix首页 | 论坛 | 博客
  • 博客访问: 258804
  • 博文数量: 84
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 927
  • 用 户 组: 普通用户
  • 注册时间: 2015-03-06 23:00
个人简介

growing

文章分类

全部博文(84)

文章存档

2017年(6)

2016年(61)

2015年(17)

我的朋友

分类: Python/Ruby

2016-07-03 10:41:55


总思路如下:
1.提取网页的源代码并写入文本文件
2.利用正则表达式提取源代码中我们需要的
3.下载我们爬到的文件

这里我是爬了堆糖网陈冠希的图片,网站戳:这里

看一下原网页的源代码中我们需要的:

注意看划红线的里面的网站就是我们想要爬到的图片
下面开始写代码爬取

  1. # coding:utf-8

  2. import re
  3. import requests

  4. # 读取源代码文件

  5. f = open('source.txt','r')
  6. html = f.read()
  7. f.close()

  8. # 匹配图片网址

  9. pic_url = re.findall('href="(.*?)" target="_blank"',html,re.S )
  10. i = 0
  11. for each in pic_url:
  12.     print 'now downloading:' + each
  13.     pic = requests.get(each)
  14.     fp = open('pic\\' + str(i) + '.jpg','wb')
  15.     fp.write(pic.content)
  16.     fp.close()
  17.     i += 1

结果可以看到爬到了并且在下载:

下面就可以在本地的文件夹里看到爬来的图了


阅读(1466) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~