全部博文(272)
分类: Python/Ruby
2014-01-14 20:34:56
五岳之巅2014-11-07 13:33:11
ld304695350:居然遇到我导师母校的老师。。。看楼主似乎很喜欢用模拟浏览器内核来解析js,但性能会很差的啊,而且如果频率高了也可能会封IP
建议将模拟浏览器的方式改为浏览器抓包得到js指向的url,然后观察参数规律就可以根据京东内部接口去抓了,这个高并行也不会封IP的,而且可以将BS4改成lxml用xpath,速度快挺多。
看完数据抓取的艺术以后感觉不留言支持一下说不过去,准备去图书馆借阅大数据分析:点数成金拜读一下
真羡慕可以研究自己喜欢的东西,快毕业了何去何从真迷茫,如果早点看到这文章早就准备去考博了,情报就业真难
好文赞一个
《大数据分析:点数成金》并不是本技术书,原作者对技术了解并不够深入,本书具有一定的局限性,只是原文文采太好翻译起来很吃力。你说的适合于商业应用,是大规模数据抓取方案,casper也不错,但是必须看到凡是有利就有弊,如果想从淘宝集市中抓取某个名字的书的信息,可是这本书比如是本教程,同一个人还出了很多版本,此时如果没有人的介入便很难从一大堆结果中快速选择(我的意思是如果打开一个一个链接,再判断也行,但是太浪费资源和时间,还有书还可能分为套装和非套装,还有的是相关的两本一起卖,所以让人来判断就会把事情变得很简单),用博客里的这种方法就能实时改写源页面,加入多选框让用户选择,还能实现对选择的数据进行初步处理等等操作。虽然人工参与会消耗更多时间,但却可以大为提升数据的准确性和精确性。封IP的话,咱们也可以在数据抓取过程中,人工加入一些“噪音”。
只要有真才实学,最终,条条大路都会通罗马。我就是学情报的,祝好。
ld3046953502014-11-07 11:51:57
居然遇到我导师母校的老师。。。看楼主似乎很喜欢用模拟浏览器内核来解析js,但性能会很差的啊,而且如果频率高了也可能会封IP
建议将模拟浏览器的方式改为浏览器抓包得到js指向的url,然后观察参数规律就可以根据京东内部接口去抓了,这个高并行也不会封IP的,而且可以将BS4改成lxml用xpath,速度快挺多。
看完数据抓取的艺术以后感觉不留言支持一下说不过去,准备去图书馆借阅大数据分析:点数成金拜读一下
真羡慕可以研究自己喜欢的东西,快毕业了何去何从真迷茫,如果早点看到这文章早就准备去考博了,情报就业真难
好文赞一个