http文件下载原理-邓九祥-ChinaUnix博客

祭奠forstudy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

邓九祥

博客访问： 236728
博文数量： 48
博客积分： 1088
博客等级：少尉
技术积分： 339
用户组：普通用户
注册时间： 2012-04-27 10:24

文章分类

全部博文（48）

经济类（0）
操作类（18）
语言类（13）

汇编语言（1）

python 语言（9）

c 语言（1）

php 语言（2）
应用类（1）

zabbix监控系统（0）
电路类（0）
数据类（8）

mongoDB 数据库（8）

mysql 数据库（0）
系统类（5）

linux 操作系统（5）
开发类（3）
未分配的博文（0）

文章存档

2012年（48）

我的朋友

相关博文

http文件下载原理

分类： LINUX

2012-10-16 18:02:52

最近研究了一下关于http文件下载的相关内容，觉得还是写些东西记下来比较好。起初只是想研究研究，但后来发现写个可重用性比较高的模块还是很有必要的，我想这也是大多数开发人员的习惯吧。
对于HTTP协议，向服务器请求某个文件时，只要发送类似如下的请求即可：

GET /Path/FileName HTTP/1.0
Host:
Accept: */*
User-Agent: GeneralDownloadApplication
Connection: close

每行用一个“回车换行”分隔，末尾再追加一个“回车换行”作为整个请求的结束。

第一行中的GET是HTTP协议支持的方法之一，方法名是大小写敏感的，HTTP协议还支持OPTIONS、HAED、POST、PUT、DELETE、TRACE、CONNECT等方法，而GET和HEAD这两个方法通常被认为是“安全的”，也就是说任何实现了HTTP协议的服务器程序都会实现这两个方法。对于文件下载功能，GET足矣。GET后面是一个空格，其后紧跟的是要下载的文件从WEB服务器根开始的绝对路径。该路径后又有一个空格，然后是协议名称及协议版本。

除第一行以外，其余行都是HTTP头的字段部分。Host字段表示主机名和端口号，如果端口号是默认的80则可以不写。Accept字段中的*/*表示接收任何类型的数据。User-Agent表示用户代理，这个字段可有可无，但强烈建议加上，因为它是服务器统计、追踪以及识别客户端的依据。Connection字段中的close表示使用非持久连接。

关于HTTP协议更多的细节可以参考RFC2616（HTTP 1.1）。因为我只是想通过HTTP协议实现文件下载，所以也只看了一部分，并没有看全。

如果服务器成功收到该请求，并且没有出现任何错误，则会返回类似下面的数据：

HTTP/1.0 200 OK
Content-Length: 13057672
Content-Type: application/octet-stream
Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT
Accept-Ranges: bytes
ETag: "2f38a6cac7cec51:160c"
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Date: Wed, 16 Nov 2005 01:57:54 GMT
Connection: close

不用逐一解释，很多东西一看几乎就明白了，只说我们大家都关心内容吧。

第一行是协议名称及版本号，空格后面会有一个三位数的数字，是HTTP协议的响应状态码，200表示成功，OK是对状态码的简短文字描述。状态码共有5类：
1xx属于通知类；
2xx属于成功类；
3xx属于重定向类；
4xx属于客户端错误类；
5xx属于服务端错误类。
对于状态码，相信大家对404应该很熟悉，如果向一个服务器请求一个不存在的文件，就会得到该错误，通常浏览器也会显示类似“HTTP 404 - 未找到文件”这样的错误。Content-Length字段是一个比较重要的字段，它标明了服务器返回数据的长度，这个长度是不包含HTTP头长度的。换句话说，我们的请求中并没有Range字段（后面会说到），表示我们请求的是整个文件，所以Content-Length就是整个文件的大小。其余各字段是一些关于文件和服务器的属性信息。

这段返回数据同样是以最后一行的结束标志（回车换行）和一个额外的回车换行作为结束，即“\r\n\r\n”。而“\r\n\r\n”后面紧接的就是文件的内容了，这样我们就可以找到“\r\n\r\n”，并从它后面的第一个字节开始，源源不断的读取，再写到文件中了。

以上就是通过HTTP协议实现文件下载的全过程。但还不能实现断点续传，而实际上断点续传的实现非常简单，只要在请求中加一个Range字段就可以了。

假如一个文件有1000个字节，那么其范围就是0-999，则：

Range: bytes=500- 表示读取该文件的500-999字节，共500字节。
Range: bytes=500-599 表示读取该文件的500-599字节，共100字节。
Range还有其它几种写法，但上面这两种是最常用的，对于断点续传也足矣了。如果HTTP请求中包含Range字段，那么服务器会返回206（Partial Content），同时HTTP头中也会有一个相应的Content-Range字段，类似下面的格式：
Content-Range: bytes 500-999/1000
Content-Range字段说明服务器返回了文件的某个范围及文件的总长度。这时Content-Length字段就不是整个文件的大小了，而是对应文件这个范围的字节数，这一点一定要注意。

一切好像基本上没有什么问题了，本来我也是这么认为的，但事实并非如此。如果我们请求的文件的URL是类似这样的文件，则不会有问题。但是很多软件下载网站的文件下载链接都是通过程序重定向的，比如pchome的ACDSee的HTTP下载地址是：

这种地址并没有直接标识文件的位置，而是通过程序进行了重定向。如果向服务器请求这样的URL，服务器就会返回302（Moved Temporarily），意思就是需要重定向，同时在HTTP头中会包含一个Location字段，Location字段的值就是重定向后的目的URL。这时就需要断开当前的连接，而向这个重定向后的服务器发请求。

好了，原理基本上就是这些了。其实装个Sniffer好好分析一下，很容易就可以分析出来的。不过NetAnts也帮了我一些忙，它的文件下载日志对开发人员还是很有帮助的。

“content_type”，"text/x-opml;"
"Content-Disposition", """filename=xxx.opml"""

阅读(2798) | 评论(0) | 转发(0) |

上一篇：linux汇编程序 ‘hello world’

下一篇：Content-Disposition的使用方法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6