Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257474
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: 云计算

2019-01-27 17:18:06

采集配置

启动ForeSpider采集软件后,默认界面如图所示。ROOT任务下有已经配置好的示例模板,点击网站图标即可进行。可在任务列表选择某一任务按照需求重新配置。

【采集配置界面】

1.任务列表

【任务列表】

任务对应着采集来源,通常一个采集来源对应着一个任务。如采集人民网时,人民网就是一个任务;通过百度采集全网信息时,百度就是一个任务;通过100个网址导航采集全球域名时,这100个网址导航就是一个任务。

2.任务属性配置

用户可根据采集需求与网站的设置选择性的配置任务属性。

任务属性配置包括登录网站、关键词采集、浏览器采集、采集类型、禁用Cookie及Cookie设置6个部分。

【任务属性配置】

(1)登录网站

如果采集源的数据需要登录才可以采集到,则需要信息。开启登录后,右侧会出现操作向导。

(2)关键词采集

当采集对象是搜索栏时,需要进行。开启关键词采集后,右侧会出现操作向导。

当网站登录与采集登录同时开启时,可在任务属性配置栏右侧切换操作向导。

【登录与关键词采集】

(3)

通过浏览器插件的方式采集数据。适用于大量JS生成且采集难度大的网页。对JS支持好,近乎于在浏览器上点击,但采集效率低。

(4)

采集类型分为默认(html)和本地文件目录两种。

(5)禁用Cookie

禁止使用Cookie解析网页。

(6)Cookie

当网站需要Cookie验证才能采集时,需要信息。

3.模板抽取配置

【模板抽取配置】

:添加模板。

:删除模板、链接抽取或数据抽取。

:添加链接抽取。

:添加数据抽取。

(1)模板

模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。

通过模板之间的关联,模拟网站各页面的跳转关系。通过链接抽取,抽出网页中的链接。通过数据抽取,抓取网页中的数据。

(2)

【模板属性配置】

①抽取类型选择

抽取类型包括链接抽取和数据抽取。

【抽取类型选择】

示例地址作为样例,成为模板,通过以该地址配置模板,可以抓取与该地址在同一层级、具有相似结构的页面数据。

任务第一个模板的示例地址默认为创建任务时填写的采集地址。

【示例地址】

高级选项包括字符编码、文档类型、网页类型、主题过滤、未匹配处理模板5个部分。(不常用功能)

【高级选项】

(3)链接(网址)配置

【链接(网址)配置】

①关联模板

是指该“链接抽取”抽取出的链接,其下一层级页面对应的模板,也就是在浏览器中,点击链接打开的下一层页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。

②链接类型

链接类型可分为普通网页链接、图片视频等资源链接和自定义类型三种。默认选择普通网页链接。

智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用地址/标题过滤。

定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。

为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。地址过滤是通过url地址的规律,过滤无关链接。标题过滤是通过链接标题的规律,过滤无关链接。

(4)数据属性配置

【数据属性配置】

①数据表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。

②点击创建表达

若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。(/)

指的是数据采集时,在数据库里的存储方式。

④列表数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。()

4.采集地址

采集对象的入口地址(url地址)。比如采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。比如只采集“女装”类别的商品信息,“女装”首页就是入口地址。

【采集地址】

5.内置浏览器

模拟不同版本的浏览器。填入采集地址,可点击内置浏览器显示采集页面。

【内置浏览器】

阅读(3304) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~