IP数据报的分片与重组-scutan-ChinaUnix博客

冬日夜雨tanjun.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scutan

博客访问： 644932
博文数量： 54
博客积分： 3812
博客等级：上校
技术积分： 992
用户组：普通用户
注册时间： 2007-04-16 20:53

文章分类

全部博文（54）

数学（0）
机器学习（0）
转载（8）
学习日记（4）
人工智能（1）
UNIX哲学（5）
算法（15）
PHP（1）
perl学习（3）
正则表达式（0）
shell（2）
C/C++（9）
Linux内核（6）

Netfilter（1）

基础知识笔记（1）

Linux网卡驱动学（4）
未分配的博文（0）

文章存档

2010年（10）

2009年（24）

2008年（20）

我的朋友

相关博文

IP数据报的分片与重组

分类： LINUX

2009-02-16 13:46:03

转自：http://hi.baidu.com/linux_kernel/blog/item/3e83c75cef363343fbf2c0dc.html

谢谢原作者。

前面有讲到过在函数ip_append_data中实现了对IP数据报的分片，这个讲法是错误的，需要纠正一下，ip_append_data的主要任务只是创建发送网络数据的套接字缓冲区(skb)，它根据输出路由查询得到的输出网络设备接口的MTU，把超过MTU长度的应用数据分割开，并创建了多个skb，放入套接字的发送缓冲队列(sk_write_queue)，但它并没有为任何一个skb数据加上网络层首部，并且，随后在ip_push_pending_frames函数中，又把发送缓冲队列中的所有的skb，以一个链表的形式追加到第一个skb的end成员后面的struct skb_shared_info结构体中的frag_list上，并只为第一个skb加上了网络层首部，所以，实际上，整个应用数据还只是在一个skb中，ip_append_data这样做只是为接下来的真正的IP数据的分片作好准备。
    ip_push_pending_frames在完成了skb的组装后，把它交给了函数ip_output，ip_output又调用了函数ip_finish_output，该函数对skb的长度再次进行判断，如果长度超过输出设备的mtu的值，并且符合其它分片条件，则调用ip_fragment进行数据报的分片，否则直接调用ip_finish_output2输出到数据链路层。
    IP数据的分片涉及到IP首部中的两个字段，即结构体struct iphdr的成员frag_off，其高三位是三个标志位，第二位是不允许分片标志，置该位，表示该IP数据报不允许被分片，如果发送这样的数据报，并且数据报本身长度已经超出MTU的很制，则向发送方发一个icmp出错报文，报文类型为目的不可达(3)，代码为需要进行分片但被设置了不允许分片的位(4)；第三位如果置1，表示后面还有分片，置0表示本分片是一个完整的IP数据报的最后一个分片。frag_off的低13位表示本分片的第一个字节在整个IP数据报中的偏移量，单位是字节数除以8，所以需要把这13位左移3位，才是真正的偏移字节数。
    有了先前ip_append_data的工作，ip_fragment的分片工作相对简单很多。struct sk_buff的成员cb在inet域被存入了结构体struct inet_skb_parm，其定义如下：
    struct inet_skb_parm
    {
        struct ip_options   opt;
        unsigned char       flags;
#define IPSKB_FORWARDED     1
#define IPSKB_XFRM_TUNNEL_SIZE 2
#define IPSKB_XFRM_TRANSFORMED 4
#define IPSKB_FRAG_COMPLETE 8
#define IPSKB_REROUTED      16
    };
    分片完成的一个IP数据报，它的每一个skb的cb->flags被置上IPSKB_FRAG_COMPLETE标志。ip_fragment首先为frag_list列表中的每个skb的成员sk和destructor赋上跟第一个skb同样的值，使它们成为正常的skb。然后，为每个skb从第一个skb中拷贝元数据和网络层首部，并设置正确的iphdr->frag_off的值，并把它们一一输出到数据链路层。至此，网络层的数据发送工作全部完成。
    被分片后的IP数据报，其每一个分片都在网络中独立传输，所以，它们到达目的主机一般是不会同时的，并有可能乱序的。并且，它们在中间的传输路径上有可能被组装，也有可能被再次分片。由于网络层首部中frag_off的存在，使得重新正确组装成为可能。下面看看IP数据分片到达目的主机后，是如何被重新组装起来的。
    协议栈收到一个IP数据报，进入网络层的第一个函数是ip_rcv，ip_rcv对数据报进行一些正确性检查后，交给ip_rcv_finish，ip_rcv_finish查询输入路由后，交给dst_input，dst_input调用skb->dst->input，如果是本地接收的IP数据报，该函数即ip_local_deliver，ip_local_deliver一开始就检查该数据报的IP首部的frag_off成员，如果发现其低13位不为0,或者高三位中的第三位被置1,则表示这是一个IP分片(第一个分片的低13位为0，但高三位中的第三位被置1,表示后面还有分片，最后一个分片标志位置0，但低13位不为0,中间的分片，两者都不为0)。对于IP分片，该函数调用ip_defrag把它与已经收到的IP分片重组，并等待后来的IP分片，直至形成一个完整的IP数据报。
    一个完整IP数据报的全部IP分片组织存放在一个结构体struct ipq中，该结构体保存有足够的信息，等最后一个分片到达后，把它们还原成一个IP数据报。下面是struct ipq的完整定义：
    struct ipq {
        struct hlist_node list;
        struct list_head lru_list;
        u32     user;
        u32     saddr;
        u32     daddr;
        u16     id;
        u8      protocol;
        u8      last_in;
#define COMPLETE        4
#define FIRST_IN        2
#define LAST_IN         1
        struct sk_buff *fragments;
        int     len;
        int     meat;
        spinlock_t lock;
        atomic_t    refcnt;
        struct timer_list timer;
        struct timeval stamp;
        int             iif;
        unsigned int    rid;
        struct inet_peer *peer;
    };
    user是一个标志，用于标识该IP分片组的来源，协议栈收到的来自网络其它主机或本地环回接口的IP分片，该标识值是IP_DEFRAG_LOCAL_DELIVER，saddr，daddr，id，protocol的值都来源于IP首部，用于确定这些IP分片确实是来自唯一的一个IP数据报。因为一台主机的协议栈可能同时跟网络中多台主机在进行通讯，所以，某一时刻，协议栈一般总有多组IP分片等待被重组，也就是说会有多个struct ipq结构的实例，多个struct ipq被组织在一个哈希表ipq_hash中，当收到一个IP分片时，首先用IP首部的相应字段计算一个哈项值，找到哈希表ipq_hash中的一项，然后去匹配上述字段完全符合的一个struct ipq，把分片加入到该ipq中即可。如果在哈希表中找不到跟当前的IP分片首部完全符合的项，则需要重新创建一个struct ipq的实例，并加到哈希表中。新创建的ipq都带有一个定时器(timer成员)，超时时间缺省为IP_FRAG_TIME(30秒)，如果30秒后，某一个IP数据报的分片还没有全部被收到，则这个ipq超时，超时处理函数被执行，超时处理函数会删除这个ipq，并向接收端发送一个icmp出错报文，该报文类型为超时（11），代码为在数据报组装期间生存时间为0（1）。
    得到了一个ipq后，开始把收到的分片的skb放到这个ipq中，首先检查ipq的last_in，如果它的值为COMPLETE，则表示这个分片组已经完整了，新收到的IP分片是错误的，直接扔掉。再检查新收到的skb的cb->flags，因为在发送数据报进行分片时，每一个分片的flag会被置上IPSKB_FRAG_COMPLETE标志。
    接下来检查收到的IP分片的IP_MF(frag_off的高三位中的第三位），如果为0，表示这已经是最后一个分片了，置ipq的last_in为LAST_IN，len始终被更新为当前收到的IP分片中偏移最大的那个分片的偏移值加上长度，最后如果正确，则为整个IP数据报的长度。然后把这个skb剥离网络层首部后，加入到fragments链表中，该链表以frag_off中的偏移量为顺序组织，也就是真正的IP分片的顺序，如果当前收到的这个分片的偏移量为0，则置last_in的值为FIRST_IN，meat始终被更新为当前收到的IP分片的总长，最后，如果正确，meat应该等于len。
    IP分片添加完毕后，如果meat确定等于len了，可以考虑进行重组了，函数ip_frag_reasm完成重组，它取得fragments链表，把第二个skb开始的链表又重新放到第一个skb的end后面的struct skb_shared_info结构体的frag_list链表上，并重设IP首部，一个完整的IP数据报就被重组完成了。返回前，还要释放ipq。

阅读(4530) | 评论(0) | 转发(0) |

上一篇：使用递归进行多进制输出

下一篇：后缀表达式求值

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6