Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2123215
  • 博文数量: 249
  • 博客积分: 1305
  • 博客等级: 军士长
  • 技术积分: 4733
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-17 10:37
个人简介

不懂的东西还有很多,随着不断的学习,不懂的东西更多,无法消灭更多不懂的东西,那就不断的充实自己吧。 欢迎关注微信公众号:菜鸟的机器学习

文章分类

全部博文(249)

文章存档

2015年(1)

2014年(4)

2013年(208)

2012年(35)

2011年(1)

分类: 网络与安全

2012-01-10 21:53:27

BT通信协议举例分析

      现在的很多BT下载都采用了DHT网络,这样进行BT下载就不需要中心服务器了。本文针对的是需要中心服务器的BT下载。

  小弟我最近正在研究BT通信协议,网上的资料很全,但是不是那事详细和完整,因此,整理下来,一方面他日用到拿来看看,另一方面,希望对正在研究BT通信协议的有点帮助。若有不正之处,请指正。

1.        BT协议的工作过程

       BT协议主要包括3个部分:.torrent文件的格式、tracker HTTP/HTTPS协议和peer wire协议(使用TCP)。其中tracker HTTP/HTTPS协议是BT客户机与tracker服务器之间的通信协议,peer wireBT客户机之间的通信协议。

1.1 torrent文件的结构

       .torrent文件的内容,采用了B编码。B编码是一种简洁的数据组织方式,支持4种数据类型:bytestringsintegerslistsdictionariesintegerslistsdictionaries类型分别以字母ild作为首定界符,以字母e作为尾定界符。bytestrings类型不使用首/尾定界符,其格式为<十进制表示的字符串长度><字符串>,如4:spam表示字符串“spam”。这4种数据类型嵌套使用构成了.torrent文件的内容。

       我们先看下所举例子的种子文件内容,种子文件中的服务器内容如下:

d8:announce39:

 

其中的一些主要成份如下:

    ●announcetracker服务器的URL,本例中为http//tracker.cnxp.com:8080/announce

    ●announce-list:可选。备用tracker服务器的URL列表,本例中为等。

    ●creationdate:可选。.torrent文件的创建日期,使用标准的UNIX时间,本例中为1152105243

    ●comment:可选。.torrent文件制作者添加的任意格式的说明。

    ●createdby:可选。制作.torrent文件的工具,本例中使用的制作工具是BitComet/0.67

    ●encoding:可选。发布的资源使用的编码方式,在本例中使用的是GBK

 ●info:发布的文件的信息。有两种格式,单文件格式和多文件格式。单文件格式包括lengthmd5sum(可选)、namepiecelengthpieces;多文件格式包括filesnamepiecelengthpieces,其中files包括lengthpathmd5sum(可选),每一个文件都有单独的lengthpathmd5sum(可选)。

 另外,还有一些可选项,这里就不在累述。

 

1.2 tracker HTTP/HTTPS协议

       BT客户端依次向.torrent中的trackerr服务器发送连接请求,以获得正在下载该文件的对等方列表。如果连接成功获得列表,就关闭连接,尝试与列表中的对等方建立连接;如果不成功,尝试下一个tracker服务器。

第一、客户端获取Tracker服务器的IP地址

图一 客户端发送DNS请求包

DNS服务器的响应来看,我们可以获取Tracker服务器的IP地址:

10.rarbg.com:是一个别名服务器

       主名称:tracker.publicbt.com95.211.88.5495.211.88.4995.211.88.51

       9.rarbg.com                    83.149.126.97

               exodus.desync.com              208.83.20.164

               pow7.com                       10.rarbg.com

               tracker.novalayer.org          194.54.80.150

               tracker.publicbt.com           95.211.88.5495.211.88.4995.211.88.51

       tracker.torrent.to             127.0.0.1

               tracker.torrentbay.to          109.235.55.11

               tracker.1337x.org:               95.215.62.224

               tracker.openbittorrent.com: 95.215.62.26

       以上为各Tracker服务器的IP地址。

第二、TrackerHTTP/HTTPS协议

       BT客户端依次向.torrent文件中的tracker服务器发送连接请求,以获取peers列表(主要是IP地址和监听端口)。如果连接成功获取列表,就关闭连接,尝试与列表中的对等方建立连接;如果不成功,尝试下一个tracker服务器。

图二 BT客户端向Tracker服务器发送HTTP请求

       447号分组中的HTTP部分内容如图6所示。

图三 HTTP部分内容

其中一些成分的含有如下:

     info_hash.torrent文件中的info部分的sha1效验码,共20字节。Tracker服务器通过它在发布列表中找到对应的记录。

     peer_idBT客户端的唯一性标识,在客户端启动时产生,共20bit。貌似没有具体的产生peer-id的算法,只要求能够保证唯一性即可。

     ip:可选,IP地址,没有的话服务器会自己找到。

     port:监听端口,这里为10775

     uploaded/downloaded:上传/下载的字节数(从客户机向Tracker服务器发送”started”开始计算)。

     left:还需下载的字节数。

     numwant:可选。客户端希望从Tracker服务器得到的对等方的数目。

     key:可选。一个扩展的唯一性标识,即使改变了IP地址,也可以使用该字段标识该BT客户机。

     compact:压缩标志。如果值为1表示接受压缩格式的对等方列表,即用6byte表示一个对等方      (前4byte表示IP地址,后2byte表示端口号);值为0表示不接受。

 

       另外,在与Tracker服务器交互的过程中,有很多服务器的已经被封杀禁止,所以,会有很多这样的结果。

图四 被封后的Tracker服务器交互过程

       Tracker服务器有个tracker程序来管理这些请求,得到这一串代码后就会用info_hash来查找列表,若找到就可以下载。接着就会反连(NatCheck)客户端的IP地址和端口,判断它是内网用户还是公网用户。接下来服务器返回现在正在下载这个文件的所有公网用户的IP和端口。返回的部分数据如图五所示。

图五 HTTP之上部分数据

       其中“660:”以及之前的部分使用的是ASCII字符集,“660:”之后的部分是用16进制表示的二进制数。从分组内容可以看出:完成整个文件下载的peers数为76;正在下载的peers数目为10个;还没有完成该文件下载的peers数目为34interval的值为1967,也就是说BT客户端最多每隔1967个时间单位就与tracker服务器重新联系一次;最少时间间隔为983peer部分共有660个字节,由于BT客户端支持对等方列表的压缩,即6个字节表示一个对等方,也就说返回的对等方个数为110个。

 1.3 peer wire协议

       BT客户机会尝试与返回的对等方列表中的部分对等方建立连接,下面是对等放列表中的208.131.161.209:53062为例,分析一下对等方之间的交互过程。如图六所示,只分析TCP之上的部分。约定对等方A指的是208.131.161.209:53062,对等方B指的是172.16.8.93:3012.

图六 对等方间通信过程

       建立TCP连接之后,对等方之间的交互过程包括以下几步:

(1)       握手,通过Handshake分组实现。

(2)       互换所拥有的资源的情况。通过Bitfield分组实现。该例中,对等方B尚未下载任何资   源,故公布资源拥有情况的只有对等方A。对等方A通过分组283公布了自己资源拥有情况。

(3)       互通对资源的意愿情况,包括interestednointerestedchokeunchoke4种。

(4)       互相请求资源,通过request piecepiece分组实现。

(5)       断开连接。因为peer wire协议使用了TCP方式,对等方A与对等方B断开连接时,只需要断开他们之间的TCP连接即可。

图七 Handshake数据包的上层内容

       握手:Handshake

       pstrlen: 的字符串长度,单个字节。

           pstr: 协议的标识符,字符串类型。

           reserved: 8 个保留字节。当前的所有实现都使用全0.这些字节里面的每一个字节都可以用来                      改变协议的行为。来自Bram 的邮件建议应该首先使用后面的位,以便可以使用前面                      的位来改变后面位的意义。

          info_hash: 元信息文件中info (key)对应值的20 字节SHA1 哈希。这个nfo_hash和在tracker                      请求中info_hash 是同一个。

          peer_id: 用于唯一标识客户端的20 字节字符串。这个peer_id 通常跟在tracker 求中传送                      的peer_id相同(但也不尽然,例如在Azureus,就有一个匿名选项)

       BitTorrent 协议1.0 版本,pstrlen = 19, pstr = BitTorrent protocol”。

       连接的发起者应该立即发送握手报文。如果接收方能够同时地服务多个torrent,它会等待发起者的握手报文(torrent infohash 唯一标识)。尽管如此,一旦接收方看到握手报文中的info_hash 部分,接收方必须尽快响应。tracker NAT-checking 特性不会发送握手报文的peer_id 字段。

       如果一个客户端接收到一个握手报文,并且该客户端没有服务这个报文的info_hash,那么该客户端必须丢弃该连接。如果一个连接发起者接收到一个握手报文,并且该报文中peer_id 与期望的peer_id 不匹配,那么连接发起者应该丢弃该连接。注意发起者可能接收来自tracker peer 信息,该信息包含peer 注册的peer_id。来自于tracker peer_id 需要匹配握手报文中的peer_id

图八 Bitfiled数据包上层数据

       bitfield:

       itfield 报文可能仅在握手序列发送之后,其他消息发送之前立即发送。它是可选的,如果一个客户端没有piece(),就不需要发送该报文。bitfield 报文长度可变,其中x bitfield 的长度。payload 是一个bitfield,该bitfield 表示已经成功下载的piece()。第一个字节的高位相当于piece 索引0。设置为0 的位表示一个没有的piece,设置为1 的位表示有效的和可用的piece。末尾的冗余位设置为0

       长度不对的bitfield 将被认为是一个错误。如果客户端接收到长度不对的bitfield 或者bitfield 有任一冗余位集,它应该丢弃这个连接。

图九 request piece数据包上层部分

       request piece分组结构如上图所示。

       该报文长度固定,用于请求一个块。payload包含如下信息:

       index:整数,指定从零开始的piece索引。

       begin:整数,指定piece中从零开始的字节偏移。

       length:整数,指定请求的长度。

阅读(24279) | 评论(12) | 转发(2) |
给主人留下些什么吧!~~

梦醒潇湘love2014-08-17 10:45:03

ai之凯:感觉可能是我的请求的infohash有问题。。想问一下,tracker的get请求的infohash的值,是否是经过sha1后,然后在经过http编码后的值??急求啊,楼主。。

infohash是从种子文件中获取的,,,

回复 | 举报

ai之凯2014-06-19 17:51:12

为什么我发送完数据请求后,对方peer没有回应呢?已经确认过了,发送的请求包没有问题//

梦醒潇湘love2014-03-05 18:48:57

whlwy:文章写得真的不错,每一步都有具体数据对应讲解,帮助真的很大,看完有意犹未尽的感觉,谢谢!!!

谢谢 一起交流

回复 | 举报

梦醒潇湘love2014-03-05 18:48:30

ai之凯:感觉可能是我的请求的infohash有问题。。想问一下,tracker的get请求的infohash的值,是否是经过sha1后,然后在经过http编码后的值??急求啊,楼主。。

每个种子文件中都有其相应的infohash,那么你根据种子文件就可以解析出来infohash,然后构造 HTTP Get数据报就可以了,用wireshark抓包,看看包是怎么构造的,我记得不需要自己编码

回复 | 举报

ai之凯2014-03-04 12:06:51

梦醒潇湘love:不好意思,好久没来了,哪里不清楚,互相交流下。

感觉可能是我的请求的infohash有问题。。想问一下,tracker的get请求的infohash的值,是否是经过sha1后,然后在经过http编码后的值??急求啊,楼主。。

回复 | 举报