Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257514
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: 数据库开发技术

2019-03-04 10:03:59

网络超时

【网络超时】

1. 接收超时

当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。

2. 发送超时

当采集的数据量过大时,可以将发送超时的时间调大。

3. 重试次数

网络连接失败后重新连接的次数。网络状态不稳定时,可以将重试次数调大。


http设置

【http设置】

1. 模拟浏览器版本

模拟不同版本的浏览器。当采集预览或内置浏览器无法打开某网站时,如果是由于内置浏览器的版本造成的,可以在此更改模拟浏览器的版本。(重启软件生效)

2. 重定向重试次数

网站重定向的重试次数。


加载设置

【加载设置】

1.加载设置

(1)禁用JavaScript

【加载设置--完全禁用JavaScript】

对于有些网页,JavaScript只用于美观效果,可以关闭JavaScript,会加快采集速度。在这里设置的为全局的禁用JavaScript。

一般在配置时选择完全禁用。

当选择禁用禁用JavaScript时,对于js脚本采集时就不解析了,直接跳过。

(2)完全不禁用JavaScript

【加载设置--完全不禁用JavaScript】

完全不禁用即启用JavaScript,可以启用JavaScript的相关方法。

在这里设置的为全局的完全不禁用JavaScript。

(3)不禁用当前页面

【加载设置--不禁用当前页面】

不禁用当前页面中的当前页指Script标签里面的js,其中不包括src=xxx.js。

在这里设置的为全局的不禁用当前页面。

2.禁用SSL协议(https)

不使用https协议,会提升采集速度。

任务定时

【任务定时】

用户可以通过任务定时,进行自动启动/停止采集。也可以选择间隔某个时间段后启动/停止采集。

预警设置

【预警设置】

1. 网络异常

可以设置网络异常连续多少次,则进行预警提醒。

2. 反爬识别

可以设置疑似被反爬了多少次,则进行预警提醒。

3. 预警操作

设置当出现预警时,软件会进行什么操作。

①无:软件仍然照常操作。

②暂停:软件暂停,等待处理。

③自动休眠:预留。

④自动更换代理:预留。

4. 预警提醒

①不提醒:不进行提醒。

②图标闪烁:软件任务栏的图标闪烁。

③弹窗等待:软件弹出弹窗,等待人工处理。


过滤设置

通过设置采集的任务量大小、采集文件大小和文件类型,使软件采集到某种任务状况时可以自动停止。

【过滤设置-采集文件大小下限】

1. 采集文件大小下限

可以设置一个阈值,在采集量达到阈值时采集自动停止。

2. 采集文件大小阈值

可以设置一个采集文件大小的阈值,当文件大小超过阈值时不予采集该文件,通过设置阈值可以有效过滤超大文件,网页中不需要的超大文件将不予采集。

3. 采集文件类型列表

在这里选择需要的文件类型,选中的文件类型将会被采集下来。不予选择的类型将在采集时被过滤。



阅读(1482) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~