最全爬虫入门资料-chengxuyonghu-ChinaUnix博客

chengxuyonghu

首页　| 　博文目录　| 　关于我

chengxuyonghu

博客访问： 1893603
博文数量： 636
博客积分： 0
博客等级：民兵
技术积分： 3950
用户组：普通用户
注册时间： 2014-08-06 21:58

个人简介

博客是我工作的好帮手，遇到困难就来博客找资料

文章分类

全部博文（636）

运维（20）
法务（11）
未分配的博文（605）

文章存档

2024年（5）

2022年（2）

2021年（4）

2020年（40）

2019年（4）

2018年（78）

2017年（213）

2016年（41）

2015年（183）

2014年（66）

我的朋友

相关博文

最全爬虫入门资料

分类：系统运维

2018-01-12 14:15:32

爬虫入门知识9点：

1、普通的内容爬取

2、保存爬取的图片、视频、文件、网页

3、普通模拟登陆

4、处理验证码登陆

5、抓取JS网站

6、全网爬虫

7、某个网站的站内所有目录爬虫

8、多线程

9、爬虫框架Scrapy

1、普通的内容爬取

2、保存爬取的图片、视频、文件、网页

#图片/视频和文件和网页的地址抓取下来后，利用模块urllib里的urlretrieve()方法下载下来：

3、普通模拟登陆

4、处理验证码登录

#先把验证码图片下载下来保存，再人工读入：

5、抓取js网站

6、全网爬虫

#广度优先，模拟爬取队列：

7、某个网站的站内所有目录爬虫

#把缩写的站内网址还原：

8、多线程

#对列和线程的结合：

9、爬虫框架Scrapy

items.py：用来定义需要保存的变量，其中的变量用Field来定义，有点像python的字典；

pipelines.py：用来将提取出来的Item进行处理，处理过程按自己需要进行定义；

spiders：定义自己的爬虫。

阅读(973) | 评论(0) | 转发(0) |

上一篇：mtr

下一篇：Linux新加一块磁盘添加到卷组

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6