一个朋友用python写脚本抓web页面,本来好好的,但是某个页面却打不开,百思不得其解.
我的python水平也一般,一时也看不出问题.怎么办?
这个脚本里有一个url,用浏览器访问,正常,用脚本,不正常.
后来想到可能是提供给服务端http命令不对.如何验证呢?
想到netcat可以监听网络服务,如果把url指向改为本地,由netcat来监听,就知道程序发出来的http 命令到底是什么了.
于是:
nc -l -p 80
开始监听本地80端口
先用浏览器访问地址
然后用程序访问地址
最后发现问题所在
例如以下url
#111代表anchor
浏览器在提交url的时候,anchor部分被去掉了.
但是python没有去.
所以就出错了.
easy,但是不用netcat之前,你怎么知道?
阅读(1396) | 评论(1) | 转发(0) |