分类: Python/Ruby
2011-11-11 15:47:07
URL编码遵循下列规则: 每对name/value由&符分开;每对来自表单的name/value由=符分开。如果用户没有输入值给这个name,那么这个name还是出现,只是无值。任何特殊的字符(就是那些不是简单的七位ASCII,如汉字)将以百分符%用十六进制编码,当然也包括象 =, &, 和 % 这些特殊的字符。其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动,需要在前面加上“%”。比如“\”,它的ascii码是92,92的十六进制是5c,所以“\”的url编码就是%5c。那么汉字的url编码呢?很简单,看例子:“胡”的ascii码是-17670,十六进制是BAFA,url编码是“%BA%FA”。
因此,首先要对中文转化成url编码,利用urllib中的urllib.quote函数就能将中文进行url编码。不过编码之前要注意web服务器支持的是什么编码,百度用的的gbk,google用的是utf-8.在调用urllib.quote函数之前要对中文进行编码转换。