Chinaunix首页 | 论坛 | 博客
  • 博客访问: 249545
  • 博文数量: 83
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 845
  • 用 户 组: 普通用户
  • 注册时间: 2018-08-09 14:57
个人简介

前嗅(www.forenose.com)是国内领先的深度大数据专家,我们拥有从数据采集、分析、处理、管理、应用到营销,完 全独立知识产权的一整套大数据产品。前嗅致力于以深厚的技术功底和海量的数据资源打造国内第一家深度大数据平台!

文章分类
文章存档

2023年(5)

2022年(8)

2021年(2)

2020年(9)

2019年(59)

我的朋友

分类: 数据库开发技术

2019-04-12 17:42:11

场景:当采集的链接不存在于任何位置,或者想要采集自定义的链接。

示例:天猫商品评论的链接。

商品评论的链接不在源码中,只能自己拼接评论链接。点击评论翻页,观察翻页规律。

取其中某一链接地址在网页中查看请求返回信息。删除个别不一致的请求参数,观察结果是否变化。可得到最简链接地址。

https://rate.tmall.com/list_detail_rate.htm?itemId=566879444630&spuId=950725258&sellerId=134363478&order=3¤tPage=2&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=&callback=

脚本实例:

for(int i=0;i<10;i++){//取10页评论 url u; u.title = “第+i+”页评论”; u.urlname = “https://rate.tmall.com/list_detail_rate.htm?itemId=566879444630&spuId=950725258&sellerId=134363478&order=3¤tPage=”+i+”&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=&callback=”;  //第i页的评论链接地址 u.entryid = CHANN.id; u.tmplid = 2; RESULT.AddLink(u);
}
阅读(1393) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~