Chinaunix首页 | 论坛 | 博客
  • 博客访问: 258869
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

发布时间:2019-03-28 13:42:11

链接过滤脚本是地址和标题过滤中的脚本, 过滤类型必须选择脚本过滤时过滤脚本才能生效,过滤脚本用于处理复杂的链接或标题过滤需求。一.可用全局对象(只读)EXTRACT: 当前采集引擎[ 对象类型: extractor ]DATADB: 当前连接的数据库[ 对象类型: dataBase ]RESULT: 当前结果集对.........【阅读全文】

阅读(1545) | 评论(0) | 转发(0)

发布时间:2019-03-27 09:38:39

链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变:1.如果脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。一.可用全局对象(只读)EXTRACT: 当前.........【阅读全文】

阅读(1391) | 评论(0) | 转发(0)

发布时间:2019-03-26 13:03:16

链接脚本是频道的模板中的脚本。配置了模板脚本,模板的处理流程将被改变:1.如果脚本未正确返回dom区域节点,则该模板的采集则完全由该脚本控制。2.如果脚本返回了一个正确的dom区域节点,则该模板的所有流程(链接抽取或数据抽取)都以该区域节点为基准,区域外的信息和数据将优先作为垃圾数据处理。.........【阅读全文】

阅读(1402) | 评论(0) | 转发(0)

发布时间:2019-03-22 09:53:56

链接过滤类tmplFiltertmplFilter 类为链接采集过滤操作类,其只有一个方法:Test。用于测试一个字符串是否符合过滤规则。一.类成员:无二.成员方法:......【阅读全文】

阅读(1420) | 评论(0) | 转发(0)

发布时间:2019-03-21 13:55:49

采集管理类extractorextractor 类为采集引擎操作类,管理当前的采集入口,采集属性配置.一.类成员:无二.成员方法:示例:1.OpenDoc方法的参数header对象的全部可用成员:频道模板类tmplTmpltmplTmpl 类为ForeSpider的模板操.........【阅读全文】

阅读(1365) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册