【从零开始学爬虫】采集豆瓣影评数据-forenose-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

前嗅大数据

首页　| 　博文目录　| 　关于我

博客访问： 261730
博文数量： 83
博客积分： 0
博客等级：民兵
技术积分： 845
用户组：普通用户
注册时间： 2018-08-09 14:57

个人简介

前嗅（www.forenose.com）是国内领先的深度大数据专家，我们拥有从数据采集、分析、处理、管理、应用到营销，完全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台！

文章分类

全部博文（83）

前嗅数据研究院（1）
脚本教程（1）
可视化教程（2）
大数据（22）

2019盘点（0）

程序员（0）
人物传记（0）
未分配的博文（57）

文章存档

2023年（5）

2022年（8）

2021年（2）

2020年（9）

2019年（59）

我的朋友

最近访客

推荐博文

【从零开始学爬虫】采集豆瓣影评数据

分类： IT业界

2022-08-18 17:32:11

采集网站

【场景描述】采集豆瓣影评数据以《梦华录》为例。

【使用工具】前嗅ForeSpider数据采集系统，免费下载:

采集网站

【入口网址】

【采集内容】

采集豆瓣上电视剧《梦华录》的影评数据，采集字段：标题、发布者昵称、发布时间、发布正文。

【采集效果】如下图所示：

思路分析

配置思路概览：

配置步骤

1. 新建采集任务

选择【采集配置】，点击任务列表右上方【+】号可新建采集任务，将采集入口地址填写在【采集地址】框中，【任务名称】自定义即可，点击下一步。

2.获取翻页链接

采用链接过滤的方法来抽取翻页链接，具体如下所示：
①先观察翻页链接规律，找到规律，很明显翻页链接中都包含：?start=

②设置地址过滤，过滤包含“?start=”的链接，这样就把翻页链接过滤出来了。

③关联模板，将翻页链接抽取，关联模板01。

3.抽取列表链接

①新建一个链接抽取，改名为【列表链接】，将翻页链接抽取改名为【翻页链接】。

②使用链接过滤的方法来获取列表链接，先采集预览，打开列表链接预览结果，找到帖子链接并观察规律，发现其中都包括：“一串数字”

③设置地址过滤，过滤包含“\d”的链接，这样就把翻页链接过滤出来了。其中\d表示数字串。

4.抽取数据

①新建一个抽取模板，在其下新建一个数据抽取，具体操作如下所示：

②数据建表，按照下图所示建数据表。（注意字段属性等应严格按照下图进行设置）

③将新建好的数据表，关联到模板中去，如下图所示:

④填写示例数据，采集预览，复制任意一条影评链接。

⑤将链接粘贴到本模板示例地址中，并双击内置浏览器空白部分，加载本链接。

⑥关联模板

⑦数据取值

使用定位取值的方法，title字段如下所示：

Nick字段如下所示：

Uptime字段如下所示：

Text字段如下所示：

⑧采集预览

采集预览如下图所示，说明配置成功，可以开始采集。如果有哪个字段或者数据没有出来，再次检查之前配置，正确配置模板。

采集步骤

模板配置完成，采集预览没有问题后，可以进行数据采集。

①建立数据表单：

选择【数据建表】，点击【表单列表】中该模板的表单，在【关联数据表】中选择【创建】，表名称自定义，这里命名为【qczj】（注意命名不能用数字和特殊符号），点击【确定】。创建完成，勾选数据表，并点击右上角保存按钮。

②开始采集

选择【数据采集】，勾选任务名称，点击【开始采集】，则正式开始采集。

③导出数据

采集结束后，可以在【数据浏览】中，选择数据表查看采集数据，并可以导出数据。

④导出的文件打开如下图所示：

前嗅简介

前嗅大数据，国内领先的研发型大数据专家，多年来致力于为大数据技术的研究与开发，自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台！

阅读(412) | 评论(0) | 转发(0) |

0

上一篇：如何将爬虫数据写入Mysql等各类数据库中

下一篇：前嗅教你大数据：采集站长之家文章数据

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们