Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1048176
  • 博文数量: 157
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1388
  • 用 户 组: 普通用户
  • 注册时间: 2015-04-09 15:37
文章分类

全部博文(157)

文章存档

2023年(9)

2022年(2)

2021年(18)

2020年(7)

2017年(13)

2016年(53)

2015年(55)

我的朋友

分类: 网络与安全

2015-10-13 15:01:11

转载于:http://blog.csdn.net/smstong/article/details/6038596


以前大概知道URLencoded, application/x-www-form-urlencoded等大概的东西,也做了一些能运行的程序,可总归不是特别清楚。今天又看到了HTTP: The Definitive Guide这本电子书,终于彻底明白了怎么回事。


首先还是回顾一下HTTP协议的报文,Http协议报文有两种,一是请求报文,二是响应报文,而这两种报文格式和编码规则是一样的,所以这里以请求报文为例。


请求报文(消息),由三个部分组成,从前到后分别是:

(1)start line

(2)headers

(3)body


好了,首先要明确的是(1)和(2)必须是ASCII码字符,也就是说出现在(1)和(2)里的字符编码必须为0-127之内。(3)中的内容可以是任何编码,可以是字符编码,也可以是图像的编码,也可以是任意二进制编码。至于到底里面是什么,通过(2)中的 Content-Type:头来说明。


总体格式是这样的,(1)startline必须以CRLF结尾,CR,LF当然也是ASCII码了。(2)headers也必须以CRLF结尾。需要注意的是,即使一个头也没有,仍需要一个CRLF表示头的结束。


具体来说:

一、对于startline


method request-URL version CRLF,其中method为方法名,如GET,POST等,后跟空格,后跟请求的URL,后跟空格,后跟版本号,后跟CRLF。

这里需要注意的是URL的编码,前面已经讲过了,首先startline里的内容必须为ASCII码,而对于startline里面的URL则更为苛刻,URL的格式为,其中://为固定编码,/用来分隔路径,:用来指定端口号,resource指定资源名,p1,p2是路径名。URL的苛刻要求在于,hostname,p1,p2,resource的名称必须限定于ASCII码的一个子集,见下表:


Unreserved

[A-Za-z0-9] | "-" | "_" | "." | "!" | "~" | "*" | "'" | "(" | ")"

Reserved

";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","

Escape

"%"


其中Reserved一行中的字符不允许出现在hostname,p1,p2,resource中【我测试看curl请求url请求表中unReserved和Reserved中的只有!需要转移才能发请求,其他都可以直接发( )会返回bash: !/tpy/t.png?k=3": event not found,不能成功发起请求】,可要是确实需要这些字符怎么办呢,此时就需要通过称为URLEncode的方法对不允许出现的字符进行编码为允许的字符,例如本来resource的名字为~voice,那么编码后就变成了%7Evoice,其中7E为~字符的ASCII码的十六进制的ASCII表示。原则上这种方式只能编码Reserved的ASCII码,而现在人们扩展了这种方法,也利用这种方法编码复杂字符,如GB2312和UTF-8等,如把GB2312的“好人”编码为%BA%C3%C8%CB,把UTF-8的"好人"编码为%E5%A5%BD%E4%BA%BA,虽然这不规范但已经成了实事上的标准了。



二、对于headers


标头的具体格式如下蓝色所示:name: valueCRLF 其中,name为标头表示变量的名字,后跟冒号,后跟一个可选的空格,后跟变量的值,后跟CRLF。


三、对于body


body里是什么内容,如果是字符采用什么编码,如果是图像又采用什么格式,所有这些都是有headers里规定的。其中Content-Type规定了body里面是什么,采用什么编码,如Content-Type: text/html; charset=UTF-8,表示body里的内容是html文件,采用UTF-8编码。这里需要注意的是对于:Content-Type: application/x-www-form-urlencoded,这是POST常用的消息类型,它表明body里放的是表单数据,采用的编码为urlencoded。首先,这种格式的body内容必须为ASCII码,除了格式化字符自身外,其他字符必须限定于ASCII的unreserved子集。举例来说,这种body的格式为name1=value1&name2=value2&name3=&name4=value4,name1,name2,name3,name4为变量名,value1,value2,value3,value4为变量的值,=和&为格式化字符。这里要求name1,name2,name3,name4,value1,value2,value4的编码必须为ASCII的UnReserved子集。

对编程的提示:

仅仅对需要URLEncode的地方进行编码,不要全部进行编码。如GET 。

(1)首先确定URL的部分,不是URL的部分根本不能进行URLencode编码。显然URL部分是。对于GET,空格,CRLF三部分不属于URL,不能进行特殊编码。

(2)确定URL部分需要URLEncoded的地方。需要进行RULEncode的只是,s,wd,~test。尽管,s,wd编码前后不变但它们也是需要编码的部分。而对于http://,:,/,?,=,它们本身是格式化字符,具有特殊意义不能再进行URLencode编码了。

所以startline可以这样生成:

string startline = "GET " + "http://" + URLEncode() + "/" + URLEncode("s") + "?" + URLEncode("wd") + "=" + URLEncode("~test") + "/r/n";


千万别写成了

string startline = URLEncode("GET ~test/r/n");

也不要写成

string startline = "GET " + URLEncode("htt://~test") + "/r/n";

阅读(1730) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~