Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257441
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: IT业界

2022-01-27 15:42:44

采集网站

【场景描述】采集百姓网招聘数据。

【源网站介绍】百姓网,中国领先的分类信息网。可以免费查找中国各种新鲜的二手物品交易、二手车买卖、房屋租售、宠物、招聘、兼职、求职、交友活动及生活服务等分类信息,还能免费发布这些分类信息。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

 

采集网站

【入口网址】

【采集内容】

采集百姓网招聘列表中的招聘信息。

 

 

【采集效果】如下图所示:

 

思路分析

配置思路概览:

配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

 

 

2.获取翻页链接

①按住ctrl+鼠标单击任意一个翻页,然后按住shift+鼠标单击任意一个未选中翻页扩大选区,直至选中所有翻页,然后确认选区后保存。

 

采集预览,发现所有翻页都被抽取出来了。

 

②关联模板,将翻页链接抽取,关联模板01。

 

 

3. 抽取列表数据

①在模板1下新建一个数据抽取,具体操作如下所示:

 

 

②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

 

③将新建好的数据表,关联到模板中去,如下图所示:

 

④识别列表

选中第一条招聘数据,如图所示,点击识别列表,系统自动识别到列表中的所有招聘数据。

 

 

⑤数据取值

使用定位取值的方法,title字段如下所示:

 

pay字段如下所示:

 

其他字段也按照同样的方法进行定位取值。

⑥采集预览

 

采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【baixing】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

 

 

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

 

③导出数据

采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

  

④导出的文件打开如下图所示:

 

*本教程仅供教学使用,严禁用于商业用途!

 

前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

 

阅读(347) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~