Chinaunix首页 | 论坛 | 博客
  • 博客访问: 257485
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: 大数据

2019-02-13 10:28:18

今天,小编为介绍一下,前嗅ForeSpider中数据采集界面里:运行设置,IP代理设置,验证码设置,这三大设置的界面,具体内容如下:


一,运行设置


数据采集前的运行设置,包括采集速度、采集策略、任务装载、网络超时、HTTP设置、加载设置、任务模式、任务定时、预警设置、过滤设置10个部分。


【运行设置界面】


二,IP代理设置


软件支持动态和静态IP代理,http/https/socket代理。当需要启用IP代理时,需要在资源管理界面添加代理资源。


【IP代理设置界面】


1.启用IP代理

启用IP代理采集时,需要进行代理配置。需选中“启用IP代理”,才能启用IP代理功能。


【启用IP代理】


2.IP资源列表

添加完成的IP资源后会在列表中显示。


【IP资源列表】



添加IP资源代理



删除IP资源代理


保存IP资源代理


修改IP资源代理


3.IP代理配置

可添加IP代理账号,配置IP代理属性。

(1)静态代理IP


【静态代理IP配置】


添加IP资源代理


删除IP资源代理


批量导入IP账号


保存IP资源代理

(2)动态代理IP


【动态代理IP配置】

①协议类型:选择代理的协议类型,软件支持http/https/socket代理。

②返回格式:选择动态IP的返回格式。包括未知、Text、Json、XML。

③刷新周期:指代理IP的有效时长。

④请求地址:粘贴代理商的请求地址。

⑤POST DATA:根据代理不同,post请求的情况下填写该内容。

⑥代码编辑区:需要填写一段脚本,以调用代理IP。


4.启用代理加速

启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。


【代理加速】


5.本机IP混用策略

当代理IP失效时,选择是否启用本地网络。


【本机IP混用策略】


三,验证码设置


当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。


【验证码设置界面】


1.识别平台

软件内置了两个打码平台,可根据不同的平台进行验证码配置。


【识别平台】

(1)基础识别平台:预定的内置识别方式。

(2)若快:若快为打码平台。软件通过打码平台解析验证码内容。


2.识别列表

添加验证码识别名称。


【识别列表】


3.验证码设置与测试(不常用)


【资源配置】

其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试如果右侧验证码图片与图片下解析出来的文字一致,就证明验证码设置的正确。

阅读(2229) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~