Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257425
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: IT业界

2022-08-22 17:16:49

采集网站

【场景描述】采集站长之家文章数据

【源网站介绍】

站长之家(中国站长站)为个人站长与企业网络提供全面的站长资讯、源代码程序下载、海量建站素材、强大的搜索优化辅助工具、网络产品设计与运营理念以及一站式网络解决方案,十年来我们一直致力为中文网站提供动力。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

【入口网址】

采集内容

采集站长之家电商分类中文章的数据,采集字段:标题、发布时间、来源平台、正文内容等。

【采集效果】如下图所示:


 

思路分析


配置思路概览:

配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

 

 

2.获取翻页链接

①在浏览器上打开该页面,往后翻页,发现是瀑布流翻页。点击F12,打开NetWork界面,继续翻页发现翻页请求如下图所示:

 

观察这几个翻页请求的header,发现请求链接和header中的path参数随着翻页数的变化而变化,如下图所示:

 

写脚本,拼接链接,具体脚本如下所示:

 

脚本文本:

url u;

for(i=0;i<5;i++){ //遍历

u.urlname=URL.urlname+i+".shtml"; //拼地址+分页

u.title=URL.title+"@"+i;

u.entryid=this.id;

u.tmplid=2;

RESULT.AddLink(u);

}

采集预览,如下图所示,每个翻页都有一条请求,与浏览器中的请求一致

 

 

3.获取新闻列表链接

继续在浏览器中观察翻页请求,在翻页请求的Response中找到了新闻的标题与新闻链接。

 

 

②新建模板02,在其下新建一个链接抽取。

 

用脚本打开翻页请求获取返回源码。

 

打开翻页请求后,根据所需要的新闻链接在源码中的位置,获取新闻链接。观察浏览器源码中数据的位置如下图所示:

 

 

⑤根据以上观察,编写脚本将招聘列表链接抽取出来。具体操作如下:

 

脚本文本为:

var ur = URL.urlname;//定义ur是当前网址,即翻页链接

var path = ur.Right(".com");//path为翻页链接“.com”右侧的内容

var header;//定义header

header.var(":path") = path;//定义参数:path,与浏览器中的翻页请求一致

var doc = EXTRACT.OpenDoc(CHANN,ur,"",header);//打开翻页请求

if(doc)//打开请求后

{

    var dm = doc.GetDom();//获取源码

    var a=dm.FindClass("recommond-wrapper__bd catlist-wrapper__bd article-recommond__bd","div");//找到第一个节点

    var b=a.child.child.next.next;//找到第二个节点

    for(i=0;i<19;i++){//循环获取19个新闻的链接

    url u;

    u.urlname=b.child.child.child.child.href;//取第三个节点的href值为链接

    u.title=b.child.child.child.child.title;//取第三个节点的title值为链接标题

    u.entryid=this.id;

    u.tmplid=3;//关联模板3

    RESULT.AddLink(u);

    b=b.next;//跳入下一个新闻单元

    }

}

采集预览,如下图所示:

 

4.抽取新闻数据

①新建模板03,在该模板下新建一个数据抽取。

 

②新建一个数据表单,具体步骤和字段属性如下所示:

③填写示例地址

采集预览,双击进入下一层,复制任意一条新闻链接,复制在模板03的示例地址位置:

 

 

 

④关联数据表单,如下图所示:

  

双击内置浏览器,显示出示例地址页面。

 

抽取数据采用定位取值法,title为例进行演示,具体操作如下图所示:

 

Pubtime字段:

 

Author字段:

Content字段:

 

 

⑦点击采集预览,如下图所示:

  

采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【zhanzhangzhijia】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

 

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③采集中:

 

④采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

 

 

⑤导出的文件打开如下图所示:

 

 

*本教程仅供学习交流,严禁用于商业用途!

 

前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

阅读(418) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~