前嗅ForeSpider脚本教程：链接脚本-forenose-ChinaUnix博客

个人简介

前嗅（www.forenose.com）是国内领先的深度大数据专家，我们拥有从数据采集、分析、处理、管理、应用到营销，完全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台！

文章分类

文章存档

2019年（59）

我的朋友

EXTRACT: 当前采集引擎[ 对象类型: extractor ]

DATADB: 当前连接的数据库[ 对象类型: dataBase ]

RESULT: 当前结果集对象[ 对象类型: result ]

URL: 当前采集的链接对象[ 对象类型: url ]

URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]

DOC: 当前采集的文档对象[ 对象类型: grabDoc ]

DOM: 当前采集文档的dom对象[ 对象类型: dom ]

ITEM: 模板区域的dom树节点(如果模板未选择区域则为dom树的根节点)[ 对象类型: domItem ]

TMPL: 当前文档模板对象[ 对象类型: tmplTmpl ]

当前链接抽取[tmplLink]对象。

如果要采集某个特征区域内的链接，则必须返回该区域的dom节点( domItem对象)。否则该链接抽取则完全由脚本控制。

示例

示例：采集第一个Form表单中的链接。

return DOM.FindName("form");

在链接模板需要的链接无法用爬虫过滤得到，就要写链接脚本。

下面是每个链接脚本必有的

url u;u.title = "";u.urlname = "";u.tmplid = 3;u.entryid = CHANN.id;RESULT.AddLink(u);

阅读(1415) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们