URL编码-bjutslg-ChinaUnix博客

活出自我

首页　| 　博文目录　| 　关于我

bjutslg

博客访问： 1692803
博文数量： 695
博客积分： 0
博客等级：民兵
技术积分： 4027
用户组：普通用户
注册时间： 2013-11-20 21:22

文章分类

全部博文（695）

java多线程（1）
dubbo（1）
java面试（31）
spring（3）
redis（2）
Netty学习（7）
java并发编程读书（8）
学习网络（3）
比特币（1）
HCNA（5）
Windows（3）
MQ（3）
密码学（5）
逆向汇编（2）
nmap学习（2）
缓冲区溢出（3）
CTF训练（1）
Kali学习（8）
java（85）

SSH框架学习（1）

Tomcat（4）
docker学习（4）
wireshark学习（4）
Metaploit学习（4）
系统服务器配置（1）
加密算法（2）
sqlmap学习（4）
PHP 学习（1）
数据库（8）
正则表达式（0）
SQL注入（4）
Python（26）

Django学习（1）
Webgoat学习（1）
渗透学习（45）
开源资源（1）
设计模式（19）
招聘（1）
排序整理（9）
网络安全（35）
笔试面试（65）
逻辑（2）
收藏（3）
一天一算法（8）
数据结构和算法（10）
程序人生（5）
Shell（8）
书荐（4）
虚拟化技术（1）
c/c++学习（96）
Linux学习（67）
英语（2）
Unix网络和TCP/IP（81）
未分配的博文（0）

文章存档

2018年（18）

2017年（74）

2016年（170）

2015年（102）

2014年（276）

2013年（55）

我的朋友

最近访客

推荐博文

URL编码

分类： Html/Css

2015-11-11 22:25:49

我们都知道Http协议中参数的传输是"key=value"这种简直对形式的，如果要传多个参数就需要用“&”符号对键值对进行分割。如"?name1=value1&name2=value2"，这样在服务端在收到这种字符串的时候，会用“&”分割出每一个参数，然后再用“=”来分割出参数值。

针对“name1=value1&name2=value2”我们来说一下客户端到服务端的概念上解析过程:
上述字符串在计算机中用ASCII吗表示为：
  6E616D6531 3D 76616C756531 26 6E616D6532 3D 76616C756532。
   6E616D6531：name1
   3D：=
   76616C756531：value1
   26：&
   6E616D6532：name2
   3D：=
   76616C756532：value2
   服务端在接收到该数据后就可以遍历该字节流，首先一个字节一个字节的吃，当吃到3D这字节后，服务端就知道前面吃得字节表示一个key，再想后吃，如果遇到26，说明从刚才吃的3D到26子节之间的是上一个key的value，以此类推就可以解析出客户端传过来的参数。

   现在有这样一个问题，如果我的参数值中就包含=或&这种特殊字符的时候该怎么办。
比如说“name1=value1”,其中value1的值是“va&lu=e1”字符串，那么实际在传输过程中就会变成这样“name1=va&lu=e1”。我们的本意是就只有一个键值对，但是服务端会解析成两个键值对，这样就产生了奇异。

如何解决上述问题带来的歧义呢？解决的办法就是对参数进行URL编码
   URL编码只是简单的在特殊字符的各个字节前加上%，例如，我们对上述会产生奇异的字符进行URL编码后结果：“name1=va%26lu%3D”，这样服务端会把紧跟在“%”后的字节当成普通的字节，就是不会把它当成各个参数或键值对的分隔符。

另外一个问题，就是为什么我们要用ASCII传输，可不可以用别的编码？
    当然可以用别的编码，你自己可以开发一套编码，然后自己解析。就像大部分国家都有自己的语言一样。那国家之间要交流，怎么办？用英语把，英语的使用范围最广。

***********************番外篇(URL编码)************************

URL编码又称为百分号编码,编码方式很简单,就是把单个字节用16进制表示,然后在其前面放置一个百分号。
比如有"abc"这样一个串,我们把他转换成ascii的字节序后,用16进制表示成这样:
        61 62 63
把他进行百分号编码就是在各个字节前加上“%”,结果如下:
        %61%62%63

在URL的表示中并非所有的字符都需要进行百分号编码,RFC3986(URI规范)中规定保留字符和非保留字符可以不用编码,其它字符必须用百分号编码。
RFC1738(URL规范)规定保留和非保留字符可以直接用于URL中。

保留字符:
       ! * ' ( ) ; : @ & = + $ , / ? # [ ]
非保留字符:
       a-z A-Z 0-9 - _ . ~

在一个URL中,如果一个保留字符在特定上下文中有特殊含义,而这个保留字在URL中又有特殊目的,那么该字符必须百分号编码。
比如"/",在URL中表示路径分隔符,如果某个路径包含该字符,那么在路径内的该字符就必须进行百分号编码,否则就会和真正的路径分隔符产生歧义.

还有一种需要进行百分号编码的就是”其它字符“,所谓的其它字符就是在保留字符和非保留字符之外的字符,比如ascii码的非显示字符、汉字字符等。

通过前面我们知道,对一个字符进行百分号编码前需要得到该字符的字节流形式,也就是说我们需要根据某种字符编码,将该字符转换成字节流,应该用哪种字符编码(比如GBK、UTF-8等)在RFC1738中并没有给出,所以各个程序(比如浏览器)有自的方式,但是在2005年1月RFC3986做出了强制规定,强制"其它字符"要先转换为UTF-8字节序列,然后对其字节值进行百分号编码。

对"a中"这个字符串对其百分号编码的过程大概如下:
   1)将串转换成utf-8编码形式的字节流,那么就是0x61 E4 B8 AD
   2)顺序取一个字节,是非保留字?
   3)是,则该字节不用编码,直接输出该字节表示的ascii字符
   4)不是,则证明该字节需要编码，先输出"%"再输出该字节的16进制大写形式
   5)如果还有下一个字节则执行步骤 3),如此循环直到编码完成
   6)最后结果 "a%E4%B8%AD"

对"a%E4%B8%AD"串的解码过程如下:
   1)将字符串转变为字节流
   2)顺序取一个字节,标记字节位置为i,比较该字节是否是'%'
   3)不是,直接输出
   4)是,取(i+1)位置字节左移4位 + (i+2)位置字节&0xF ,然后输出
   5)跳过两个字节,如果还有下一字节则执行步骤 3), 如此循环完成解码

好，有了上面的知识后我们在看一下浏览器对URL的编码是不是跟规范一样。
首先说下URL的组成:
   {[/app/中国]} ? (name=val中)
   {}:代表URL (绝对URI)
   []:代表URI (相对URI,这种标示符依赖具体的环境)
   ():代表Query String

直接地址栏中输入,对URI则在IE8、chrome、firefox浏览器上发现都是用UTF-8进行百分号编码的.
但是对query string,IE8用的是未经过百分号编码的GBK原码(可能用的操作系统的编码);chrome、firefox上用的是utf-8进行百分号编码。

在网页中嵌套的URL,对于URL的路径部分,IE8、chrom、firefox用的是UTF-8编码进行百分号编码。
对于query string部分,这三种浏览器采用的是http响应头头中的
Content-Type:text/html; charset=gbk 指定;
如果未指定则用页面中的
指定。

通过以上我们可以知道,各个浏览器对于URL的路径部分使用的编码方式和规范一致,但是对于Query string部分稍有差别.

另外说下javascript的encodeURI()方法,该方法对保留字符不进行编码,比如以下字符不进行编码:
  a-z A-Z 0-9 - _ . ! ~ * ' ( ) ; / ? : @ & = + $ , #
所以如果某个URL的数据部分包含特殊的保留字符,用该方法编码该数据后可能无法区分该字符是数据的一部分还是URL的一部分(比如路径分隔符).

所以javascript就有了encodeURIComponent()方法,从名字上就可以看到该方法对URL的"成份"进行编码,用它编码后可以明确区分某个字符是"成份"还是URL的特殊分隔符。
该方法不对非保留字符编码,如:
   a-z A-Z 0-9 - _ . ~
其他字符都做编码。

阅读(976) | 评论(0) | 转发(0) |

上一篇：黑客搞渗透必须知道的JS.PHP,URL转码表

下一篇：使用DVWA+sqlmap体验sql注入

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6