Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1668115
  • 博文数量: 636
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3950
  • 用 户 组: 普通用户
  • 注册时间: 2014-08-06 21:58
个人简介

博客是我工作的好帮手,遇到困难就来博客找资料

文章分类

全部博文(636)

文章存档

2024年(5)

2022年(2)

2021年(4)

2020年(40)

2019年(4)

2018年(78)

2017年(213)

2016年(41)

2015年(183)

2014年(66)

我的朋友

分类: 系统运维

2018-01-12 14:15:32

爬虫入门知识9点:


1、普通的内容爬取

2、保存爬取的图片、视频、文件、网页

3、普通模拟登陆

4、处理验证码登陆

5、抓取JS网站

6、全网爬虫

7、某个网站的站内所有目录爬虫

8、多线程

9、爬虫框架Scrapy


1、普通的内容爬取


2、保存爬取的图片、视频、文件、网页


#图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:


3、普通模拟登陆


4、处理验证码登录


#先把验证码图片下载下来保存,再人工读入:


5、抓取js网站


6、全网爬虫


#广度优先,模拟爬取队列:


7、某个网站的站内所有目录爬虫


#把缩写的站内网址还原:


8、多线程


#对列和线程的结合:


9、爬虫框架Scrapy


items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典;


pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义;


spiders:定义自己的爬虫。


阅读(845) | 评论(0) | 转发(0) |
0

上一篇:mtr

下一篇:Linux新加一块磁盘添加到卷组

给主人留下些什么吧!~~