前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取-forenose-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

前嗅大数据

首页　| 　博文目录　| 　关于我

博客访问： 261757
博文数量： 83
博客积分： 0
博客等级：民兵
技术积分： 845
用户组：普通用户
注册时间： 2018-08-09 14:57

个人简介

前嗅（www.forenose.com）是国内领先的深度大数据专家，我们拥有从数据采集、分析、处理、管理、应用到营销，完全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台！

文章分类

全部博文（83）

前嗅数据研究院（1）
脚本教程（1）
可视化教程（2）
大数据（22）

2019盘点（0）

程序员（0）
人物传记（0）
未分配的博文（57）

文章存档

2023年（5）

2022年（8）

2021年（2）

2020年（9）

2019年（59）

我的朋友

最近访客

推荐博文

相关博文

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取

分类：大数据

2020-01-14 15:43:21

以孔夫子旧书网（kongfz.com/1004/）为例：

一.网站结构

1.网站截图说明

该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取。

网站列表页

2. 采集结果截图

采集数据结果

二. 配置模板

新建任务

新建任务

点击【下一步】，需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】，如图：

新建采集任务

2.创建/选择表单

①创建表单

创建表单

②配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例：

配置表单

③数据抽取链接关联表单

选择刚才新创建的表单"孔夫子"

关联表单

3.字段定位

取值方法：由于此处活取的是列表页的数据，所以可以应用“识别列表”功能，直接取到列表数据，操作方法如下：

①点击“数据抽取-孔夫子”，按住ctrl+鼠标左键点击定位标题内容

定位标题

②按住Shift+鼠标左键继续点击，直到点击到选中整个第一条数据

定位第一条数据

③在软件的右下角可以看到“识别列表”按钮，此时点击“识别列表”，如下图，此时列表中的内容都已经选中。

定位全数据

④对每个字段进行取值,方法依然是：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。如：price字段,见下图:

字段定位

4.模板预览

鼠标右键点击“孔夫子”，然后点击“模板预览”

模板预览

5.过滤翻页链接

勾选标题过滤,过滤规则选择包含,填入"下一页"

过滤翻页

三.数据采集

1.连接数据库

连接数据库

2.创建数据表

创建数据表

3.选中数据表

关联数据表

4.开始采集

开始采集

5.采集结果

采集结果

阅读(1389) | 评论(0) | 转发(0) |

0

上一篇：前嗅ForeSpider采集教程：采集【链接列表】的数据

下一篇：前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们