博客是我工作的好帮手,遇到困难就来博客找资料
分类: 系统运维
2018-01-12 14:15:32
爬虫入门知识9点:
1、普通的内容爬取
2、保存爬取的图片、视频、文件、网页
3、普通模拟登陆
4、处理验证码登陆
5、抓取JS网站
6、全网爬虫
7、某个网站的站内所有目录爬虫
8、多线程
9、爬虫框架Scrapy
1、普通的内容爬取
2、保存爬取的图片、视频、文件、网页
#图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:
3、普通模拟登陆
4、处理验证码登录
#先把验证码图片下载下来保存,再人工读入:
5、抓取js网站
6、全网爬虫
#广度优先,模拟爬取队列:
7、某个网站的站内所有目录爬虫
#把缩写的站内网址还原:
8、多线程
#对列和线程的结合:
9、爬虫框架Scrapy
items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典;
pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义;
spiders:定义自己的爬虫。