Chinaunix首页 | 论坛 | 博客
  • 博客访问: 366827
  • 博文数量: 55
  • 博客积分: 2986
  • 博客等级: 少校
  • 技术积分: 666
  • 用 户 组: 普通用户
  • 注册时间: 2009-12-18 10:26
文章分类

全部博文(55)

文章存档

2012年(2)

2011年(16)

2010年(37)

我的朋友

分类: Python/Ruby

2011-11-11 15:47:07

    今天对某个web服务器进行压力测试,请求某个页面时,由于url参数中含有中文,用python的urllib.open老是出错。在网上查了一下,发现一个url编码的东西。

    URL编码遵循下列规则: 每对name/value由&符分开;每对来自表单的name/value由=符分开。如果用户没有输入值给这个name,那么这个name还是出现,只是无值。任何特殊的字符(就是那些不是简单的七位ASCII,如汉字)将以百分符%用十六进制编码,当然也包括象 =, &, 和 % 这些特殊的字符。其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动,需要在前面加上“%”。比如“\”,它的ascii码是92,92的十六进制是5c,所以“\”的url编码就是%5c。那么汉字的url编码呢?很简单,看例子:“胡”的ascii码是-17670,十六进制是BAFA,url编码是“%BA%FA”。

    因此,首先要对中文转化成url编码,利用urllib中的urllib.quote函数就能将中文进行url编码。不过编码之前要注意web服务器支持的是什么编码,百度用的的gbk,google用的是utf-8.在调用urllib.quote函数之前要对中文进行编码转换。

阅读(7915) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~