利用Python制作文本爬虫。-enenshiwo-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

首页　| 　博文目录　| 　关于我

博客访问： 274133
博文数量： 84
博客积分： 0
博客等级：民兵
技术积分： 927
用户组：普通用户
注册时间： 2015-03-06 23:00

个人简介

growing

文章分类

全部博文（84）

网络编程（3）
Python（4）
STL（1）
数据库（4）
设计模式（2）
html（3）
Linux（20）
数据结构与算法（28）
C/C++（12）
git（4）
空想家（3）
未分配的博文（0）

文章存档

2017年（6）

2016年（61）

2015年（17）

我的朋友

最近访客

推荐博文

相关博文

利用Python制作文本爬虫。

分类： Python/Ruby

2016-07-03 10:41:55

总思路如下：
1.提取网页的源代码并写入文本文件
2.利用正则表达式提取源代码中我们需要的
3.下载我们爬到的文件

这里我是爬了堆糖网陈冠希的图片，网站戳：这里

看一下原网页的源代码中我们需要的：

注意看划红线的里面的网站就是我们想要爬到的图片
下面开始写代码爬取

# coding:utf-8
import re
import requests
# 读取源代码文件
f = open('source.txt','r')
html = f.read()
f.close()
# 匹配图片网址
pic_url = re.findall('href="(.*?)" target="_blank"',html,re.S )
i = 0
for each in pic_url:
print 'now downloading:' + each
pic = requests.get(each)
fp = open('pic\\' + str(i) + '.jpg','wb')
fp.write(pic.content)
fp.close()
i += 1

结果可以看到爬到了并且在下载：

下面就可以在本地的文件夹里看到爬来的图了

阅读(1643) | 评论(0) | 转发(0) |

0

上一篇：管道（pipe,FIFO）应用及实现。

下一篇：消息队列、信号量的使用和特点。

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们