scrapy的简单使用-hmchzb19-ChinaUnix博客

个人简介

Linuxer, ex IBMer. GNU https://hmchzb19.github.io/

文章分类

文章存档

2020年（11）

2019年（15）

2018年（43）

2017年（79）

2016年（79）

2015年（58）

我的朋友

相关博文

scrapy的简单使用

分类： Python/Ruby

2018-01-04 22:33:53

scrapy 是一个强大的爬虫工具。　

0. 安装，在Kali linux 下安装很方便。

点击(此处)折叠或打开

1.　命令行基础使用如下：

点击(此处)折叠或打开

感觉scrapy shell 非常好用，response 就是你需要parse的内容了。通常用XPATH来取所需要的数据，例如.

点击(此处)折叠或打开

In [5]: response.xpath('//title/text()').extract_first()
Out[5]: 'Unix技术网 = 全球最大的Linux/Unix应用与开发者社区 = IT人的网上家园'
#下面的这一行，可以取到所有的Ａ标签里href有chinaunix字段的a标签的href attribute,意味着我可以取到这个webpage上所有链接的URL.
In [9]: response.xpath('//a[contains(@href,"chinaunix")]/@href').extract()
#extract() 返回是一个列表，extract_first()会返回列表的第一项，其实就是 list[0].
response.xpath('//a[contains(@href,"chinaunix")]/@href').extract_first()

2. 其他的一些命令行

点击(此处)折叠或打开

#爬给定的URL或者网站的命令简单粗暴
scrapy crawl [SPIDERNAME]
#可以通过-s 传入参数,例如
scrapy crawl apts -s LOG_FILE=wiki.log
#可以输出文件xml,json,csv
scrapy crawl apts -o output.json -t json
scrapy crawl apts -o output.csv -t csv
scrapy crawl apts -o output.xml -x xml

3. 可以在settings.py 里面设定LOG_LEVEL.
有５个LOG_LEVEL, 好熟悉的LEVEL, 跟linux的syslog倒是一脉相承.

点击(此处)折叠或打开

4. 2017年12月整个一个月没有写一篇博客，惭愧，打算以后每５天，写一篇，争取每个月最少写６篇.

阅读(1415) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们