Chinaunix首页 | 论坛 | 博客
  • 博客访问: 425800
  • 博文数量: 116
  • 博客积分: 7087
  • 博客等级: 少将
  • 技术积分: 1175
  • 用 户 组: 普通用户
  • 注册时间: 2005-02-19 23:32
文章分类

全部博文(116)

文章存档

2012年(1)

2011年(2)

2010年(10)

2009年(21)

2008年(18)

2007年(12)

2006年(21)

2005年(31)

我的朋友

分类: Python/Ruby

2008-04-12 20:30:26

一个朋友用python写脚本抓web页面,本来好好的,但是某个页面却打不开,百思不得其解.
我的python水平也一般,一时也看不出问题.怎么办?

这个脚本里有一个url,用浏览器访问,正常,用脚本,不正常.

后来想到可能是提供给服务端http命令不对.如何验证呢?

想到netcat可以监听网络服务,如果把url指向改为本地,由netcat来监听,就知道程序发出来的http 命令到底是什么了.
于是:
    nc -l -p 80
开始监听本地80端口

先用浏览器访问地址
然后用程序访问地址
最后发现问题所在
例如以下url

#111代表anchor
浏览器在提交url的时候,anchor部分被去掉了.
但是python没有去.
所以就出错了.

easy,但是不用netcat之前,你怎么知道?

阅读(1396) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2008-04-15 20:23:48

内容还不错, 标题太岐义了.