Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257453
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: IT业界

2022-04-13 16:16:19

前嗅每天都接到很多数据采集的需求,虽然来自不同行业、网站及企业,不过各需求的采集场景都有很多类似之处。小编结合大家的数据采集需求,总结了以下几种爬虫常见的数据采集场景。

1.实时采集并更新新增数据

对于很多舆情或政策监测的数据采集需求,大多都需要实现实时采集,并且只采集新增数据。这样才能快速监测到需要的数据,提高监测速度和质量。

ForeSpider数据采集软件可设置不间断采集,7×24H不间断采集指定网站,已入库数据不重复采集,实时更新网站中的新增数据,之前采集的数据不会重复入库,无需每天重新采集数据,大大提高数据采集效率,节约网络带宽和代理IP资源。


设置介绍:

①定时采集

定时采集:设置任务定时设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。

②增量采集:每次只采集更新的链接,只重采更新链接,不重采数据页面。


这样爬虫软件不仅可以自动采集,实时更新,还能自动排重保证数据采集高效稳定运行。

 

2.自动补采遗漏数据

在爬虫采集数据的过程中,经常会由于网络异常、加载异常、网站反爬等原因,导致采集过程中遗漏部分数据的情况。

针对这种情况,就需要将采集过程中采集失败的请求,重新补采一遍,从而高效获取全量数据。
ForeSpider数据采集系统针对于这种常见的采集场景,可以进行数据补采的设置,从而提高采集效率,快速获取全量数据。

设置介绍:

①自定义采集策略:选择采集入库失败、采集错误和上次未采集数据。设置后重新采集,即可快速补采之前的遗漏数据,无需重复采集耗时耗力。


②设置加载日志宏:可以按照任务ID值、任务数据大小等,对不符合采集要求的数据,通过筛选日志列表,进行重新采集,以补采存在遗漏的数据。


例如,有些网站封IP的方式是重定向一个新的网址,因此采集状态显示成功,但任务的数据质量一般很小,比如2KB,这种情况可以通过加载日志宏中,加载质量过小的任务日志的方式,来重新补采这部分任务。


3.定时采集数据

一个很常见的数据采集需求就是,每天定点开始爬取一个或多个网站,为了解放双手,定时采集数据就非常必要了。


ForeSpider数据采集系统可设置定时开始、停止采集,时间点与时间段兼并设置,可在某个时间点定时启动/停止采集,或在某一时间段后定时启动/停止采集。减少人力重复工作,有效避免手动采集的情况。

 

设置介绍:

①间隔定时采集:设定间隔时间,实现固定间隔时间的采集开启/关闭。

②定点定时采集:设定爬虫自动开始/关闭的时间。


示例:

①每天采集新增数据

每天定时采集新增数据,设置每天某时间点采集新增数据,设置好后,即可每天定点采集,节省人工成本。

②网站反爬

当采集一段时间以后获取不到数据,过一段时间又可以获取数据。可开启采集后,根据反爬规律,设置某时间段后停止采集,设置某时间段后开始采集,即可有效避免反爬,高效采集数据。

③自动更新数据库

部署到服务器上以后,需要每天采集网站新数据到本地数据库,可开始定时采集,每天在固定的时间采集数据。


4.批量关键词搜索

我们经常需要采集某网站上某行业、某事件、某主体等相关内容,这时就会用到关键词采集,来采集批量关键词搜索出来的数据。


ForeSpider数据采集软件可实现多种关键词检索采集的方式。

①批量导入关键词,采集在目标网站中搜索关键词出来的数据内容,还可对关键词进行排重处理,方便快捷,无需写脚本即可批量采集关键词搜索出来的数据。

②关键词存在外部数据库中,实时调用采集。通过ForeSpider爬虫软件连接到其他数据库的数据表,或爬虫软件中的其他数据表,可使用动态变化的关键词库,实时检索采集数据。

③通过接口实时传输关键词。可以将用户数据中实时产生的检索词,通过接口传输到ForeSpider数据采集系统中,进行实时关键词检索采集。并将采集到的数据,实时传输回用户系统中,进行显示。

 

设置介绍:

关键词配置:可进行关键词配置,可在高级配置中配置各项参数。

关键词列表:批量导入、修改关键词批量导入删除、修改关键词,还可对关键词进行排重处理。


示例:

①采集关键词搜索的网站

例如百度、360问答、微博搜索等所有具有搜索功能的网站。

②关键词充当词库,调用使用

例如某网站不同地区分类的网址中包含地区参数,可直接将地区参数导入关键词列表,写简单的脚本,调用关键词拼写不同地区分类的网站,从而让配置更加简单。

③用户输入检索词,实时爬取数据返回显示

用户输入需要检索的词汇后,实时传入ForeSpider爬虫软件中,进行现场查询采集,并将采集到的数据实时传输回用户的系统中去,向用户展示数据。


5.自定义筛选文件大小/类型

我们经常需要采集网页中的图片、视频以及各种附件等数据,为了获取更加精准的数据,需要对文件的大小/类型有更精确的筛选。


前嗅ForeSpider采集软件,可自行设置采集文件上下限或文件类型,从而筛选采集网页中符合条件的文件数据。


例如:采集某网页中大小在2b以上的文件数据、采集网页中所有的text数据、采集页面中image数据、采集文件中video数据等。

 

设置介绍:

设置过滤:设置采集文件的类型,采集该类型的文件数据,设置采集文件大小下限,以过滤小文件,设置采集文件大小阈值,以过滤大文件。


示例:

①采集网页中所有图片数据

需要网页中所有图片数据,或部分图片数据时,在文件设置中选择采集文件类型,然后配置采集,节省配置成本,实现精准采集。

②采集网页中所有视频数据

需要采集网页中所有视频数据,或部分视频数据时,在文件设置中选择采集文件类型,然后配置采集。

③采集网页中特定文件数据

通过设置采集文件大小下限值,将小文件、无效文件过滤掉,实现精准采集。


6.登录采集

当采集需要登录的网站上的数据时,就需要登录设置。前嗅ForeSpider数据采集分析引擎可采集需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据,采集登录后可见的数据。


ForeSpider爬虫软件,可设置自动登录,也可手动设置登录,还可以使用Cookie进行登录,多种登录配置方式适合各种登录场景,灵活配置。

 

概念介绍:

Cookie:Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于Internet的各种服务系统应运而生,是由Web服务器保存在用户浏览器上的小文本文件,它可以包含有关用户的信息,是用户获取、交流、传递信息的主要场所之一,爬虫可以模拟cookie进行登录采集。

 

设置介绍:

①登录配置:可自动配置,也可手动配置。

②Cookie设置:对于需要cookie的网站,可自动生成cookie,获取数据。也可手动添加cookie,获取数据。

 

示例:

适用于任何需要登录(帐密登录、扫描登录、短信验证登录)的网站、APP数据。


7.批量网站批量配置

大部分的企业级大数据项目,往往需要采集的很多网站,少则数百,多则上千万,每个网站分别单独配置也是不现实的,这时候就需要对成千上万的网站进行批量配置并采集。


ForeSpider爬虫软件专门针对这种情况,独创智能配置算法和采集配置语言,能够高效配置采集和解析网页结构,采集大批量结构类似的网站数据,无需每个网站依次配置,即可实现同时采集成千上万网站。


用户将需要采集的网址列表输入到一个采集任务中,通过对采集内容进行智能识别,即可实现一个配置采集模板以采集成千上万网站的需求。 


优势:

①节约大量人工配置成本:无需人工一个个网站依次配置,即可实现采集成千上万网站的需求。

②短时间内采集大批量网站,功能上线快:快速实现网站数据扩张,短时间内即可采集海量数据,缩短项目上线时间。

③采集数据多、范围广:一次性实现海量网站的采集需求,批量管理大规模数据,实现企业级数据采集能力。

④数据便于管理:数据高度集中管理,便于全局监测数据采集情况,方便运维。

⑤灵活删减采集源:对于不想继续采集的来源可以随时删除,有新的采集来源便于随时批量增加。

 

示例:

①舆情监测

短时间内迅速实现对大量媒体网站的数据监测,迅速形成与某事件/某主体相关的内容监测。

②内容发布平台

收集批量网址,海量采集某方面的内容,对数据分类后对应发布。

③行业信息库

迅速建立某行业相关信息资料库,以备查询使用。


看到这里,大家应该对爬虫的采集场景有了一个深入的了解。后期我们将结合各采集场景,为大家展示更多的采集案例,请您敬请期待。

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

阅读(419) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~