中文字串与URL编码之间的转化-kangle000

kangle000kanglekal.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

kangle000_cu

博客访问： 125383
博文数量： 54
博客积分： 2986
博客等级：少校
技术积分： 600
用户组：普通用户
注册时间： 2009-12-18 10:26

文章分类

全部博文（54）

系统相关（0）
dns（3）
网络编程（6）
tcpip协议（4）
其他（13）
c 语言（14）
脚本（12）
未分配的博文（2）

文章存档

2012年（2）

2011年（16）

2010年（36）

我的朋友

20052270

相关博文

中文字串与URL编码之间的转化

分类： Python/Ruby

2011-11-11 15:47:07

今天对某个web服务器进行压力测试，请求某个页面时，由于url参数中含有中文，用python的urllib.open老是出错。在网上查了一下，发现一个url编码的东西。

URL编码遵循下列规则: 每对name/value由&符分开；每对来自表单的name/value由=符分开。如果用户没有输入值给这个name，那么这个name还是出现，只是无值。任何特殊的字符（就是那些不是简单的七位ASCII，如汉字）将以百分符%用十六进制编码，当然也包括象 =, &, 和 % 这些特殊的字符。其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动，需要在前面加上“%”。比如“\”，它的ascii码是92，92的十六进制是5c，所以“\”的url编码就是%5c。那么汉字的url编码呢？很简单，看例子：“胡”的ascii码是-17670，十六进制是BAFA，url编码是“%BA%FA”。

因此，首先要对中文转化成url编码，利用urllib中的urllib.quote函数就能将中文进行url编码。不过编码之前要注意web服务器支持的是什么编码，百度用的的gbk，google用的是utf-8.在调用urllib.quote函数之前要对中文进行编码转换。

阅读(1787) | 评论(0) | 转发(0) |

上一篇：Sed使用的变量里含有转义字符的解决

下一篇：linux改终端显示相对路径

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6