Chinaunix首页 | 论坛 | 博客
  • 博客访问: 258926
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: 数据库开发技术

2019-02-21 14:08:12

采集预览的使用方法

1.采集预览

在正式采集之前,可以点击界面右上方的“采集预览”按钮,以查看配置是否正确。采集预览的结果和正式采集的结果是一致的,但是只采集没有入库。

采集预览的页面包括两种:链接信息 ()和数据信息 ()。双击链接条目,可以打开下一层页面。采集预览的页面结构和配置的模板列表结构是相同的,先预览的是模板一的采集结果,通过双击链接进入下层模板预览。

2.模板预览

或在模板列表右键,选择模板预览,可以直接查看当前模板的采集结果。

【右键-模板预览】


预览链接抽取

1.未过滤

当仅输入了采集地址,没有配置模板时,点击“采集预览”可以看到采集源地址能够下载的所有链接。

2.过滤链接后

当配置了链接抽取后,可以根据链接掉无关的链接。可以在采集预览的窗口直接输入过滤串,进行地址过滤或标题过滤。可以看到采集的链接地址全部包含该字符串,剔除了不包含的链接。

预览数据抽取

创建数据抽取,并为字段赋值之后,可以预览到已经抽取出来的数据。在链接抽取页面,双击某个链接,将打开下面的数据预览页面。

或在数据抽取节点,右键选择“模板预览”查看。

【预览数据抽取】



预览错误情况排查

1.频道和模板的配置错误

①输入为空或不合法:频道配置的采集地址为空或不合法。

②模板分类错误:分类器错误。

③地址错误:采集地址不存在或已经失效。

④模板错误:模板不存在或已经损坏。

⑤频道入口配置错误:关键词搜索配置错误。

⑥文档类型错误:采集对象是不能够识别的文档。

⑦频道配置不合法:频道配置错误。

2.http下载错误

①服务器繁忙:采集对象的服务器繁忙。

②域名解析错误:域名解析出现错误。

③网页重定向:采集对象重新定向了新的地址。

④网页未找到:未找到请求资源。

⑤权限访问错误:方法禁止操作或权限不够。

⑥服务器错误:本机服务发生错误。

⑦网络错误:网络发生错误。

⑧https协议错误:ssl错误。

⑨代理服务器错误:代理错误。

⑩内容错误:下载的页面内容发生错误。

?用户取消下载:下载过程中用户过滤或取消。

3.文档类型无法识别:文档后缀与实际类型不符。

4.脚本执行出错:脚本配置出错。

5.数据错误:数据库插入、更新、删除、查询等发生错误。

6.未知错误:发生其他各类错误。


阅读(1586) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~