Chinaunix首页 | 论坛 | 博客
  • 博客访问: 258865
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

发布时间:2019-04-22 17:34:56

【跟上热度】996工作制、巴黎圣母院失火、西安利之星奔驰维权......     【新闻中的数据】奔驰事件,别让眼泪成为维权的唯一途径,我缺一个这样的女朋友智能大数据专家表示:每一段重要的时期都会有一串隐秘的数字密码,请往下看:本周共有50条新闻,作为嗅嗅的样本进行数据分析,得出以下统.........【阅读全文】

阅读(1661) | 评论(0) | 转发(0)

发布时间:2019-04-17 16:53:54

地址过滤场景:链接地址有规律。示例:可视化配置百度搜索之后的链接抽取,过滤掉不是列表链接和翻页链接的所有链接。脚本实例:If(VALUE.Find(“wd=”)!=-1||VALUE.Find(“url=”)!=-1) return true; //return true代表保留链接 else return false; //return false代表过滤链接.........【阅读全文】

阅读(1553) | 评论(0) | 转发(0)

发布时间:2019-04-12 17:42:11

场景:当采集的链接不存在于任何位置,或者想要采集自定义的链接。示例:天猫商品评论的链接。商品评论的链接不在源码中,只能自己拼接评论链接。点击评论翻页,观察翻页规律。取其中某一链接地址在网页中查看请求返回信息。删除个别不一致的请求参数,观察结果是否变化。可得到最简链接地址。https:.........【阅读全文】

阅读(1546) | 评论(0) | 转发(0)

发布时间:2019-04-10 13:00:11

链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于js变量中。1.链接需要循环场景:要抽取的一组链接都在源码中出现,集中分布。示例:获取今日头条热点新闻列表页链接查看列表页第一条链接,链接地址为“https://www.toutia.........【阅读全文】

阅读(1373) | 评论(0) | 转发(0)

发布时间:2019-04-03 11:24:01

字段处理脚本用于清洗字段的取值。点击某个字段后,在字段处理的下拉菜单中选择脚本处理后,需要配置的脚本。这一步是通过脚本进一步清洗获取的数据。一.可用全局对象(只读)EXTRACT: 当前采集引擎[ 对象类型: extractor ]DATADB: 当前连接的数据库[ 对象类型: dataBase ]R.........【阅读全文】

阅读(1380) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册