前嗅ForeSpider脚本教程：-forenose-ChinaUnix博客

前嗅大数据

首页　| 　博文目录　| 　关于我

forenose

博客访问： 263444
博文数量： 83
博客积分： 0
博客等级：民兵
技术积分： 845
用户组：普通用户
注册时间： 2018-08-09 14:57

个人简介

前嗅（www.forenose.com）是国内领先的深度大数据专家，我们拥有从数据采集、分析、处理、管理、应用到营销，完全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台！

文章分类

全部博文（83）

前嗅数据研究院（1）
脚本教程（1）
可视化教程（2）
大数据（22）

2019盘点（0）

程序员（0）
人物传记（0）
未分配的博文（57）

文章存档

2023年（5）

2022年（8）

2021年（2）

2020年（9）

2019年（59）

我的朋友

一.可用全局对象（只读）

EXTRACT: 当前采集引擎[ 对象类型: extractor ]

DATADB: 当前连接的数据库[ 对象类型: dataBase ]

RESULT: 当前结果集对象[ 对象类型: result ]

URL: 当前采集的链接对象[ 对象类型: url ]

URLTEXT : 描述当前链接采集的所有状态及属性的对象[ 对象类型: urltext ]

DOC: 当前采集的文档对象[ 对象类型: grabDoc ]

DOM: 当前采集文档的dom对象[ 对象类型: dom ]

ITEM: 当前dom树被取值节点[ 对象类型: domItem ]

TMPL: 当前文档模板对象[ 对象类型: tmplTmpl ]

DATA: 当前数据抽取对象[ 对象类型: tmplData ]

REC: 当前记录集对象[ 对象类型: record ]

二.this对象

当前数据字段抽取 [tmplVal] 对象。

三.脚本返回值

必须返回获取的数据值 [返回类型：string]

示例

class="lumn_left01"><a>商品大类a>><a><a>商品列表a>><a>商品品牌a>>div>

【网页源码】

以下脚本将取数据中所有文本：

return DOM.GetTextAll(DOM.FindClass("lumn_left01",div));取出的结果为：商品大类>商品列表>商品品牌>注释：GetTextAll：取出其中所有的文本。      FindClass：通过标签class属性值查找标签节点。 Right： 返回字符串右边的字符串。

以下脚本直接取值为当前的dom节点所有文本：

return DOM.GetText(ITEM);

阅读(2671) | 评论(0) | 转发(0) |

上一篇：前嗅ForeSpider教程：链接过滤脚本

下一篇：前嗅ForeSpider教程：字段处理脚本

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6