发布时间:2016-07-08 20:59:20
本文会介绍使用xpath来获取数据,并附上相应的代码片段来做说明。 lxml是python语言里处理XML以及HTML工作的功能最丰富和最容易使用的库。当然scrapy框架里也是使用xpath来解析数据的。lxml的安装在这里就不用赘述了,下面列举的代码片段是没有使用scrapy框架。1. xpath简介 .........【阅读全文】
发布时间:2016-07-08 08:27:12
最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速,简单的定位元素并获取信息。下面进入正题1. 遇到的中文乱码问题1.1 简单.........【阅读全文】
发布时间:2016-03-14 20:58:22
1. flume安装使用 下载flume安装包http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-bin.tar.gz 解压$ tar -xzvf apache-flume-1.5.2-bin.tar.gz -C /opt/flume flume配置文件放在conf文件目录下,执行文件放在bin文件目录下。 &.........【阅读全文】