Chinaunix首页 | 论坛 | 博客
  • 博客访问: 733475
  • 博文数量: 245
  • 博客积分: 10037
  • 博客等级: 上将
  • 技术积分: 2512
  • 用 户 组: 普通用户
  • 注册时间: 2007-01-16 17:16
文章分类

全部博文(245)

文章存档

2008年(7)

2007年(238)

我的朋友

分类: LINUX

2007-04-13 01:37:09

作者: hew  发布日期: 2006-3-08    查看数: 773   出自:

Linux的高级路由和流量控制HOWTO中文版
Bert Hubert
Netherlabs BV
bert.hubert@netherlabs.nl
Gregory Maxwell (章节作者)
remco%virtu.nl
Remco van Mook (章节作者)
remco@virtu.nl
Martijn van Oosterhout (章节作者)
kleptog@cupid.suninternet.com
Paul B Schroeder (章节作者)
paulsch@us.ibm.com
Jasper Spaans (章节作者)
jasper@spaans.ds9a.nl
Pedro Larroy (章节作者)
piotr%omega.resa.ed
一个非常上手的关于iproute2,流量整形和一点netfilter的指南.
2
译者序
可以说,翻译这篇文档的过程就是我重新学习Linux的过程.与原文的作者感受
相似,当我根据这篇文档大致了解了Linux在IP方面的功能后,绝对是"it really
blew me away!".才发现我以前一直是把Linux当成UNIX来用,Linux本身很
多精彩的功能都被我忽略了.
看来Linux在路由方面的设计的确非常独到.
但愿这篇文章的内容能够对您应用Linux有所帮助.
本文档的原作实际上还尚未完成,估计要等到Linux的2.6版内核发布之后才能
最终定稿.但是我已经等不及了,非常希望尽快与各位共享这篇文档.如果这篇
文档的原作完成,我会尽力追踪翻译.
这里是本HOWTO的正规出处.
由于本人的英语和语文都是业余水平,有两三处晦涩或者与技术无关的内容没有
翻译,希望英语高手予以指点.如有词不达意甚至理解错误之处,非常渴望您能
通过Email告知!谢谢!
2/15/2003 5:28 PM 译毕
JohnBull
3
目录
第1章 贡献 1
第2章 简介 2
2.1. 除外责任与许可 2
2.2. 预备知识 2
2.3. LINUX能为你做什么 3
2.4. 内务声明 3
2.5. 访问,CVS和提交更新 4
2.6. 邮件列表 4
2.7. 本文档的布局 4
第3章 介绍 IPROUTE2 6
3.1 为什么使用 IPROUTE2 6
3.2 IPROUTE2 概览 6
3.3 先决条件 6
3.4 浏览你的当前配置 7
3.4.1. 让ip显示我们的链路 7
3.4.2. 让ip显示我们的 IP 地址 7
3.4.3. 让ip显示路由 8
3.5. ARP 9
第4章 规则——路由策略数据库 11
4.1. 简单的源策略路由 11
4.2. 多重上连ISP的路由 12
4.2.1. 流量分割 13
4.2.2. 负载均衡 14
第5章 GRE 和其他隧道 15
5.1. 关于隧道的几点注释 15
5.2. IP-IN-IP 隧道 15
5.3. GRE 隧道 16
4
5.3.1. IPv4隧道 16
5.3.2. IPv6隧道 18
5.4. 用户级隧道 18
第6章 用CISCO和6BONE实现IPV6隧道 19
6.1. IPV6隧道 19
第7章 IPSEC:INTERNET上安全的IP 22
7.1. 从手动密钥管理开始 22
7.2. 自动密钥管理 25
7.2.1. 理论 26
7.2.2. 举例 26
7.2.3. 使用X.509证书进行自动密钥管理 29
7.3. IPSEC隧道 32
7.4. 其它IPSEC软件 33
7.5. IPSEC与其它系统的互操作 33
7.5.1. Windows 33
第8章 多播路由 34
第9章 带宽管理的队列规定 36
9.1. 解释队列和队列规定 36
9.2. 简单的无类队列规定 37
9.2.1. pfifo_fast 37
9.2.2. 令牌桶过滤器(TBF) 39
9.2.3. 随机公平队列(SFQ) 41
9.3. 关于什么时候用哪种队列的建议 42
9.4. 术语 43
9.5. 分类的队列规定 45
9.5.1. 分类的队列规定及其类中的数据流向 45
9.5.2. 队列规定家族:根,句柄,兄弟和父辈 45
9.5.3. PRIO队列规定 46
9.5.4. 著名的CBQ队列规定 48
9.5.5. HTB(Hierarchical Token Bucket, 分层的令牌桶) 54
5
9.6. 使用过滤器对数据包进行分类 55
9.6.1. 过滤器的一些简单范例 56
9.6.2. 常用到的过滤命令一览 57
9.7. IMQ(INTERMEDIATE QUEUEING DEVICE,中介队列设备) 58
9.7.1. 配置范例 58
第10章 多网卡的负载均衡 60
10.1. 告诫 61
10.2. 其它可能性 61
第11章 NETFILTER和IPROUTE——给数据包作标记 62
第12章 对包进行分类的高级过滤器 64
12.1. U32分类器 65
12.1.1. U32选择器 65
12.1.2. 普通选择器 66
12.1.3. 特殊选择器 67
12.2. 路由分类器 67
12.3. 管制分类器 68
12.3.1. 管制的方式 68
12.3.2. 越限动作 69
12.3.3. 范例 70
12.4. 当过滤器很多时如何使用散列表 70
第13章 内核网络参数 72
13.1. 反向路径过滤 72
13.2. 深层设置 73
13.2.1. ipv4一般设置 73
13.2.2. 网卡的分别设置 78
13.2.3. 邻居策略 79
13.2.4. 路由设置 80
第14章 不经常使用的高级队列规定 82
14.1. BFIFO/PFIFO 82
14.1.1. 参数与使用 82
6
14.2. CLARK-SHENKER-ZHANG算法 (CSZ) 82
14.3. DSMARK 83
14.3.1. 介绍 83
14.3.2. Dsmark与什么相关? 83
14.3.3. Differentiated Services指导 84
14.3.4. 使用Dsmark 84
14.3.5. SCH_DSMARK如何工作 84
14.3.6. TC_INDEX过滤器 85
14.4. 入口队列规定 87
14.4.1. 参数与使用 87
14.5. RED(RANDOM EARLY DETECTION,随机提前检测) 87
14.6. GRED(GENERIC RANDOM EARLY DETECTION,一般的随机提前检测) 88
14.7. VC/ATM模拟 89
14.8. WRR(WEIGHTED ROUND ROBIN,加权轮转) 89
第15章 方便菜谱 90
15.1. 用不同的SLA运行多个网站. 90
15.2. 防护SYN洪水攻击 90
15.3. 为防止DDOS而对ICMP限速 91
15.4. 为交互流量设置优先权 92
15.5. 使用NETFILTER,IPROUTE2和SQUID实现WEB透明代理 93
15.5.1. 实现之后的数据流图 96
15.6. 与PMTU发现有关的"基于路由的MTU设置" 96
15.6.1. 解决方案 97
15.7. 与PMTU发现有关的MSS箝位(给ADSL,CABLE,PPPOE和PPTP用户) 98
15.8. 终极的流量控制:低延迟,高速上/下载 98
15.8.1. 为什么缺省设置不让人满意 99
15.8.2. 实际的脚本(CBQ) 100
15.8.3. 实际的脚本(HTB) 102
15.9. 为单个主机或子网限速 103
15.10. 一个完全NAT和QOS的范例 104
7
15.10.1. 开始优化那不多的带宽 104
15.10.2. 对数据包分类 106
15.10.3. 改进设置 107
15.10.4. 让上面的设置开机时自动执行 108
第16章 构建网桥以及用ARP代理构建伪网桥 109
16.1. 桥接与IPTABLES的关系 109
16.2. 桥接与流量整形 109
16.3. 用ARP代理实现伪网桥 109
16.3.1. ARP和ARP代理 110
16.3.2. 实现 110
第17章 动态路由——OSPF和BGP 112
17.1. 用ZEBRA设置OSPF 112
17.1.1. 必要条件 113
17.1.2. 配置Zebra 113
17.1.3. 运行Zebra 115
第18章 其它可能性 117
第19章 进一步学习 119
第20章 鸣谢 120
8
第1章 贡献
本文档的成形得益于很多人的贡献,我希望能够回报他们.列出其中几个:
Rusty Russell
Alexey N. Kuznetsov
来自Google的一些好心人
Casema Internet的工作人员
1
第2章 简介
欢迎,亲爱的读者.
希望这篇文档能对你更好地理解Linxs2.2/2.4的路由有所帮助和启发.不被大
多数使用者所知道的是,你所使用工具,其实能够完成相当规模工作.比如route
和ifconfig,实际上暗中调用了非常强大的iproute 2的底层基本功能.
我希望这个HOWTO能够象Rusty Russell的作品那样通俗易懂.
你可以随时给HOWTO工作组发电子邮件来找到我们.但是如果您的问题并不
直接与这个HOWTO文档相关,请首先考虑发给邮件列表(参考相关章节).我们
可不是免费的帮助平台,但我们经常会在邮件列表上回答问题.
在钻研这个HOWTO之前,如果您想做的只是一点简单的流量整形,不妨直接
去看看其它可能性这一章里面的CBQ.init.
2.1. 除外责任与许可
这个文档依着对公众有利用价值的目的而发布,但不提供任何担保,即使是在经
销或者使用在特定场合时的潜在担保.
简单地说,如果您的STM-64骨干网瘫痪,并向您尊敬的客户们散布黄色图片,
对不起,那绝对不关我的事.
Copyright (c) 2002 所有:bert hubert,Gregory Maxwell,Martijn van Oosterhout,
Remco van Mook,Paul B. Schroeder等等.这份材料可以在遵从Open Publication
License, v1.0(或更新版)各项条款的前提下发布.Open Publication License的最新
版可以在 得到.
请随意复制并发布(出售或者赠送)本文档,格式不限.只是请求将纠正和/或注解
转发给文档的维护者.
还希望如果你出版本HOWTO的硬拷贝,请给作者们发一份以备复习之用.
2.2. 预备知识
就像标题所暗示的,这是一个"高级"HOWTO.虽然它不是终极的航天科技,
但还是要求一定的基础知识.
这里是一些可能对你有帮助的参考文献:
2
Rusty Russell的networking-concepts-HOWTO
非常精彩的介绍,解释了什么是网络以及一个网络如何与其它网络互联.
Linux Networking-HOWTO (以前叫做Net-3 HOWTO)
好东西,虽然非常冗长.它讲授的内容就是你连接到Internet所需的的配置内
容.应该在/usr/doc/HOWTO/NET3-4-HOWTO.txt中,也可以在线阅读.
2.3. Linux能为你做什么
一个小列表:
管制某台计算机的带宽
管制通向某台计算机的带宽
帮助你公平地共享带宽
保护你的网络不受DoS攻击
保护Internet不受到你的客户的攻击
把多台服务器虚拟成一台,进行负载均衡或者提高可用性
限制对你的计算机的访问
限制你的用户访问某些主机
基于用户账号(没错!),MAC地址,源IP地址,端口,服务类型,时间
或者内容等条件进行路由.
现在,很多人都没有用到这些高级功能.这有很多原因.比如提供的文档过于冗
长而且不容易上手,而且流量控制甚至根本就没有归档.
2.4. 内务声明
关于这个文档有些事情要指出.当我写完这个文档的绝大部分的时候,我真的不
希望它永远就是那个样子.我是一个坚信开放源代码的人,所以我希望你能够给
我发回反馈,更新,补丁等等.所以你应该尽可以告知我你的手稿或者指出一些
哪怕是无关紧要的错误,不必犹豫.如果我的英语有些晦涩,请原谅那不是我的
母语,尽可以给我建议.
如果你认为自己更有资格维护某个章节,或者认为自己可以写作并维护一个新的
章节,请您一定不要客气.这个HOWTO的SGML可以通过CVS得到,我估计
肯定有很多人还在为它出力.
作为请求援助,你会在文档中发现很多"求助"的字样.我们永远欢迎您的补丁!
无论您在哪里发现"求助",都应该明白您正在踏入一个未知的领域.这并不是
说在别的地方就没有错误,但您应该倍加小心.如果您确认了某些事情,请您一
3
定通知我们,以便我们能够把"求助"的标记去掉.
关于这个HOWTO,I will take some liberties along the road. For example, I postulate
a 10Mbit Internet connection, while I know full well that those are not very common.
2.5. 访问,CVS和提交更新
本HOWTO的规范位置在这里.
我们现在向全球开放了匿名CVS访问.从各个角度来说这都是一件好事.你可
以轻松地升级到本HOWTO的最新版本,而且提交补丁也不再成为问题.
另外的好处是,这可以让作者在源码上独立地继续工作.
$ export CVSROOT=:pserver:anon@outpost.ds9a.nl:/var/cvsroot
$ cvs login
CVS password: [enter 'cvs' (without 's)]
$ cvs co 2.4routing
cvs server: Updating 2.4routing
U 2.4routing/lartc.db
如果您做了修改并希望投稿,运行:
cvs -z3 diff -uBb
然后把输出用电子邮件发给,我们就可以很轻松地把它集成进去
了.谢谢!请确认你修改的是.db文件,其它文件都是通过它生成的.
提供了一个Makefile帮助您生成postscript,dvi,pdf,html和纯文本格式的文件.
你可能需要安装docbook,docboot-utils,ghostscript和tetex等等支持软件才能生
成各种格式的文本.
注意,不要更改2.4routing.sgml!那里面有旧版本的HOWTO.正确的文件是
lartc.db.
2.6. 邮件列表
作者已经开始收到关于这个HOWTO越来越多的邮件了.为了把大家的兴趣条
理化,已经决定启动一个邮件列表,让大家在那里互相探讨有关高级路由和流量
控制的话题.你可以在这里进行订阅.
需要指出的是,作者们对于列表中没有问及的问题不可能及时回答.我们愿意让
列表的归档成为一个知识库.如果你有问题,请搜索归档,然后在post到邮件
列表里.
2.7. 本文档的布局
我们几乎马上就要做一些有趣的实验,也就意味着最开始部分的基本概念解释并
不完整或者不完善,请您不必管它,后面会一点点说清楚.
4
路由和包过滤是完全不同的概念.关于过滤的问题,Rusty的文档说得很清楚,
你可以在这里找到:
Rusty出色的不可靠指南
我们则将致力于netfilter与iproute2相结合后能做什么.
5
第3章 介绍 iproute2
3.1 为什么使用 iproute2
现在,绝大多数 Linux 发行版和绝大多数 UNIX都使用古老的arp, ifconfig和
route命令.虽然这些工具能够工作,但它们在Linux2.2和更高版本的内核上显
得有一些落伍.比如,现在GRE隧道已经成为了路由的一个主要概念,但却不
能通过上述工具来配置.
使用了iproute2,隧道的配置与其他部分完全集成了.
2.2 和更高版本的Linux 内核包含了一个经过彻底重新设计的网络子系统.这些
新的代码让Linux在操作系统的竞争中取得了功能和性能上的优势.实际上,
Linux新的路由,过滤和分类代码,从功能和性能上都不弱于现有的那些专业的
路由器,防火墙和流量整形产品.
随着新的网络概念的提出,人们在现有操作系统的现有体系上修修补补来实现他
们.这种固执的行为导致了网络代码中充斥着怪异的行为,这有点像人类的语言.
过去,Linux模仿了SunOS的许多处理方式,并不理想.
这个新的体系则有可能比以往任何一个版本的Linux都更善于清晰地进行功能
表达.
3.2 iproute2 概览
Linux有一个成熟的带宽供给系统,称为Traffic Control(流量控制).这个系统
支持各种方式进行分类,排序,共享和限制出入流量.
我们将从 iproute2 各种可能性的一个简要概览开始.
3.3 先决条件
你应该确认已经安装了用户级配置工具.这个包的名字在RedHat和Debian中都
叫作"iproute",也可以在这个地方找到:
ftp://ftp.inr.ac.ru/ip-routing/iproute2-2.2.4-now-ss .tar.gz
你也可以试试在这里找找最新版本.
iproute 的某些部分需要你打开一些特定的内核选项.应该指出的是,RedHat6.2
及其以前的所有发行版中所带的缺省内核都不带有流量控制所需要的绝大多数
功能.
6
而RedHat 7.2在缺省情况下能满足所有要求.
另外,确认一下你的内核支持netlink ,Iproute2需要它.
3.4 浏览你的当前配置
这听上去确实让人惊喜:iproute2已经配置好了!当前的ifconfig和route命令已
经正在使用新的系统调用,但通常使用了缺省参数(真无聊).
新的工具ip成为中心,我们会让它来显示我们的网卡配置.
3.4.1. 让ip显示我们的链路
[ahu@home ahu]$ ip link list
1: lo: mtu 3924 qdisc noqueue
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: dummy: mtu 1500 qdisc noop
link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: mtu 1400 qdisc pfifo_fast qlen 100
link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
4: eth1: mtu 1500 qdisc pfifo_fast qlen 100
link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: mtu 1492 qdisc pfifo_fast qlen 10
link/ppp
你的结果可能有所区别,但上述显示了我家里NAT路由器的情况.我将只解释
输出中并非全部直接相关的部分.因为并不是所有部分都与我们的话题有关,所
以我只会解释输出的一部分.
我们首先看到了 loopback 接口. While your computer may function somewhat
without one, I'd advise against it. MTU (最大传输单元)尺寸为 3924 字节,并且不
应该参与队列.这是因为 loopback 接口完全是内核想象出来的,并不存在的接
口.
现在我们跳过这个无关的接口,它应该并不实际存在于你的机器上.然后就是两
个物理网络接口,一个接在我的 cable modem 上,另一个接到我家里的以太网
端上.再下面,我们看见了一个 ppp0 接口.
应该指出,我们没有看到 IP 地址.iproute 切断了"链路"和"IP 地址"两个
概念的直接联系.当使用 IP 别名的时候,IP地址的概念显得更加不相关了.
尽管如此,还是显示出了标识以太网卡硬件的 MAC 地址.
3.4.2. 让ip显示我们的 IP 地址
[ahu@home ahu]$ ip address show
1: lo: mtu 3924 qdisc noqueue
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 brd 127.255.255.255 scope host lo
2: dummy: mtu 1500 qdisc noop
7
link/ether 00:00:00:00:00:00 brd ff:ff:ff:ff:ff:ff
3: eth0: mtu 1400 qdisc pfifo_fast qlen 100
link/ether 48:54:e8:2a:47:16 brd ff:ff:ff:ff:ff:ff
inet 10.0.0.1/8 brd 10.255.255.255 scope global eth0
4: eth1: mtu 1500 qdisc pfifo_fast qlen 100
link/ether 00:e0:4c:39:24:78 brd ff:ff:ff:ff:ff:ff
3764: ppp0: mtu 1492 qdisc pfifo_fast qlen 10
link/ppp
inet 212.64.94.251 peer 212.64.94.1/32 scope global ppp0
这里包含了更多信息.显示了我们所有的地址,以及这些地址属于哪些网卡.
"inet"表示Internet (IPv4).还有很多其它的地址类型,但现在还没有涉及到.
让我们先就近看看eth0.上面说它与IP地址10.0.0.1/8相关联.这是什么意思呢?
"/8"表示IP地址表示网络地址的位数.因为一共是32个bit,所以我们的这个
网络有了24 bit的主机空间. 10.0.0.1 的开始8bit是10.0.0.0,也就是我们的网络
地址,我们的子网掩码是255.0.0.0.
其它的bit直接连接在这个网卡上,所以10.250.3.13可以直接通过eth0联络到,
就象10.0.0.1一样.
对于ppp0,仍是相同的概念,虽然数字看上去有所不同.它的地址是
212.64.94.251,不带子网掩码.这意味着这是一个点到点的连接,而且除了
212.64.94.251之外的地址是对端的.当然,还有很多信息.它还告诉我们这个链
路的另一端只有一个地址:212.64.94.1./32意思是说没有表示网络的bit.
掌握这些概念是绝对重要的.如果有问题,不妨先参考以下这个HOWTO文件
开头曾经提到的那些文档.
你应该注意到了"qdisc",它是基于对列规范的一个概念.它在后面会变得很重
要.
3.4.3. 让ip显示路由
好的,现在我们已经知道如何找到10.x.y.z了,然后我们就可以到达212.64.94.1.
但这还不够,我们还得说明如何找到全世界.可以通过我们的ppp连接找到
Internet,212.64.94.1愿意把我们的数据包发给全世界,并把回应的数据包传回给
我们.
[ahu@home ahu]$ ip route show
212.64.94.1 dev ppp0 proto kernel scope link src 212.64.94.251
10.0.0.0/8 dev eth0 proto kernel scope link src 10.0.0.1
127.0.0.0/8 dev lo scope link
default via 212.64.94.1 dev ppp0
字面的意思相当清楚.前4行的输出明确地说明了ip address show的意思,最
后一行说明了世界的其它部分可以通过我们的缺省网关212.64.94.1找到.我们
通过"via"这个词断定这是一个网关,我们要把数据包交给它.这就是我们要
留心的问题
下面列出以前route 命令的输出作为参考:
[ahu@home ahu]$ route -n
8
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use
Iface
212.64.94.1 0.0.0.0 255.255.255.255 UH 0 0 0 ppp0
10.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 eth0
127.0.0.0 0.0.0.0 255.0.0.0 U 0 0 0 lo
0.0.0.0 212.64.94.1 0.0.0.0 UG 0 0 0 ppp0
3.5. ARP
ARP 是由 RFC 826 所描述的"地址解析协议".ARP是网络上的计算机在居域
网中用来解析另一台机器的硬件地址/位置的时候使用的.互联网上的机器一般
都是通过机器名解析成IP地址来互相找到的.这就能够解决foo.com网络能够
与bar.net网络通讯.但是,仅仅依靠IP地址,却无法得到一台计算机在一个网
络中的物理位置.这时候就需要ARP.
让我们举一个非常简单的例子.假定我有一个网络,里面有几台机器.其中的两
台在我的子网上,一台叫foo,IP地址是10.0.0.1,另一台叫bar,IP地址是10.0.0.2.
现在,foo想ping一下bar看看是不是正常,但是呢,foo只知道bar的IP地址,
却并不知道bar的硬件(MAC)地址.所以foo在ping bar之前就会先发出ARP询
问.这个ARP询问就像在喊:"Bar(10.0.0.2)!你在哪里(你的MAC地址是多少)?!"
结果这个广播域中的每台机器都能听到foo的喊话,但是只有bar(10.0.0.2)会回
应.Bar会直接给foo发送一个ARP回应,告诉它"Foo (10.0.0.1),我的Mac地
址是00:60:94:E9:08:12".经过这种简单的交谈,机器就能够在局域网中定位它
要通话的对象.Foo会一直使用这个结果,直到它的ARP缓冲忘掉这个结果(在
Unix系统上通常是15分钟之后).
现在我们来看一看具体的工作过程.你可以这样察看你的ARP表(缓冲):
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable
你可以看到,我的机器 espa041 (9.3.76.41) 知道如何找到 espa042 (9.3.76.42) 和
espagate (9.3.76.1).现在让我们往缓冲中添加另一台机器.
[root@espa041 /home/paulsch/.gnome-desktop]# ping -c 1 espa043
PING espa043.austin.ibm.com (9.3.76.43) from 9.3.76.41 : 56(84) bytes of data.
64 bytes from 9.3.76.43: icmp_seq=0 ttl=255 time=0.9 ms
--- espa043.austin.ibm.com ping statistics ---
1 packets transmitted, 1 packets received, 0% packet loss
round-trip min/avg/max = 0.9/0.9/0.9 ms
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0 lladdr 00:06:29:21:80:20 nud reachable
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud reachable
由于espa041试图联络espa043,espa043的硬件地址已经添加到ARP缓冲里了.
所以直到espa043的记录失效以前(也就是两个机器间长时间没有通讯),espa041
知道如何找到espa043,也就不必频繁地进行ARP询问了.
9
现在让我们来删除 espa043 的ARP缓冲:
[root@espa041 /home/src/iputils]# ip neigh delete 9.3.76.43 dev eth0
[root@espa041 /home/src/iputils]# ip neigh show
9.3.76.43 dev eth0 nud failed
9.3.76.42 dev eth0 lladdr 00:60:08:3f:e9:f9 nud reachable
9.3.76.1 dev eth0 lladdr 00:06:29:21:73:c8 nud stale
现在espa041 已经忘记了espa043 的MAC地址,如果下次它要与espa043 通讯,
需要再次发送 ARP询问.你在espagate (9.3.76.1) 上也会发现以上输出已经变成
了"stale"状态.这意味着MAC地址仍然是在册,但是接下来第一次通讯的时候
需要确认一下.
10
第4章 规则——路由策略数据库
如果你有一个大规模的路由器,你可能不得不同时满足不同用户对于路由的不同
需求.路由策略数据库可以帮助你通过多路由表技术来实现.
如果你想使用这个特性,请确认你的内核配置中带有 "IP: advanced router" 和
"IP: policy routing" 两项.
当内核需要做出路由选择时,它会找出应该参考哪一张路由表.除了 "ip" 命令
之外,以前的 "route" 命令也能修改 main 和 local 表.
缺省规则:
[ahu@home ahu]$ ip rule list
0:
f
rom all lookup local
32766:
f
rom all lookup main
32767:
f
rom all lookup default
上面列出了规则的优先顺序.我们看到,所有的规则都应用到了所有的包上
("from all".我们前面已经看到了 "main" 表,就是"ip route ls"命令的输出,
但是"local"和"default"是初次见到.
如果我们想做点有趣的事情,就可以生成一些指向不同路由表的规则,取代系统
中的路由规则.
对于内核如何处理一个IP包匹配多个规则的精确意义,请参见Alexey关于
ip-cref文档.
4.1. 简单的源策略路由
让我们再来一个真实的例子.我有两个Cable Modem,连接到了一个 Linux的
NAT ("伪装" 路由器上.这里的室友们向我付费使用 Internet.假如我其中的
一个室友因为只想访问 hotmail 而希望少付一些钱.对我来说这没有问题, 他们
肯定只能使用那个比较次的 Cable Modem.
那个比较快的cable modem 的IP地址是 212.64.94.251, PPP 链路,对端IP是
212.64.94.1.而那个比较慢的cable modem 的IP 地址是212.64.78.148,对端是
195.96.98.253.
local 表:
[ahu@home ahu]$ ip route list table local
11
/etc/iproute2/rt_tables
# ip rule add from 10.0.0.10 table John
# ip rule ls
0:
f
rom all lookup local
32765:
f
rom 10.0.0.10 lookup John
32766:
f
rom all lookup main
32767:
f
rom all lookup default
现在,剩下的事情就是为 John 的路由表创建路由项了.别忘了刷新路由缓存:
# ip route add default via 195.96.98.253 dev ppp2 table John
# ip route flush cache
这样就做好了.至于如何在 ip-up 阶段实现就留给读者自己去研究吧.
4.2. 多重上连ISP的路由
下图是很常见的配置,同一个局域网(甚至是同一台计算机)通过两个ISP连接
到互联网上.
________
+------------+ /
| | |
+-------------+ ISP 1 +-------
__ | | | /
12
___/ _ +------+-------+ +------------+ |
_/ __ | if1 | /
/ | | |
| 局域网 -----+ Linux 路由器 | | 国际互联网
_ __/ | | |
__ __/ | if2 |
___/ +------+-------+ +------------+ |
| | |
+-------------+ ISP 2 +-------
| | |
+------------+ ________
这种情况下通常会出现两个问题.
4.2.1. 流量分割
首先是如何保证:回应来自某一个ISP的数据包时,仍然使用相同的ISP.
让我们先定义一些符号. 令第一块网卡(上图的if1)的名字叫 $IF1,而第二块网
卡叫做 $IF2 .然后设置 $IF1 的IP地址为 $IP1,$IF2 的IP地址为 $IP2.
并且,令ISP1 的网关地址为 $P1,ISP2 的网关地址为 $P2.最后,令$P1的
网络地址为 $P1_NET ,令$P2的网络地址为 $P2_NET.
额外创建两个路由表, T1 和 T2. 加入到 /etc/iproute2/rt_tables 中.然后如下
设置两个路由表中的路由:
ip route add $P1_NET dev $IF1 src $IP1 table T1
ip route add default via $P1 table T1
ip route add $P2_NET dev $IF2 src $IP2 table T2
ip route add default via $P2 table T2
没什么大不了的,不过是建立了通向该网关的一条路由,并使之成为默认网关,
分别负责一个单独的上行流,并且为这两个ISP都作这样的配置.要指出的是,
那条网络路由是必要条件,因为它能够让我们找到那个子网内的主机,也包括上
述那台网关.
下一步,我们设置"main"路由表.把包通过网卡直接路由到与网卡相连的局域
网上不失为一个好办法.要注意"src" 参数,他们能够保证选择正确的出口IP
地址.
ip route add $P1_NET dev $IF1 src $IP1
ip route add $P2_NET dev $IF2 src $IP2
然后,设置你的缺省路由:
ip route add default via $P1
接着,设置路由规则.这实际上在选择用什么路由表进行路由.你需要确认当你
从一个给定接口路由出数据包时,是否已经有了相应的源地址:你需要保证的就
是如果你已经有了相应的源地址,就应该把数据包从相应的网卡路由出去:
ip rule add from $IP1 table T1
ip rule add from $IP2 table T2
13
以上命令保证了所有的回应数据都会从他们来的那块网卡原路返回.
现在,完成了非常基本的配置.这将对于所有运行在路由器上所有的进程起作用,
实现IP伪装以后,对本地局域网也将起作用.如果不进行伪装,那么你要么拥
有两个ISP的地址空间,要么你想对两个ISP中的一个进行伪装.无论哪种情况,
你都要添加规则,基于发包的主机在局域网内的IP地址,选择从哪个ISP路由
出去.
4.2.2. 负载均衡
第二个问题是如何对于通过两个ISP流出的数据进行负载均衡.如果你已经成功
地实现了流量分割,这件事并不难.
与选择两个ISP中的一个作为缺省路由不同,这次是设置缺省路由为多路路由.
在缺省内核中,这会均衡两个ISP的路由.象下面这样做(基于前面的流量分割
实验):
ip route add default scope global nexthop via $P1 dev $IF1 weight 1
nexthop via $P2 dev $IF2 weight 1
这样就可以均衡两个ISP的路由.通过调整"weight"参数我们可以指定其中一
个ISP的优先权高于另一个.
应该指出,由于均衡是基于路由进行的,而路由是经过缓冲的,所以这样的均衡
并不是100%精确.也就是说,对于一个经常访问的站点,总是会使用同一个ISP.
进而,如果你对此不满意,你可能需要参考以下Julian Anastasov的内核补丁:
~julian/#routes
Julian的路由补丁会弥补上述缺陷.
14
第5章 GRE 和其他隧道
Linux有3种隧道.它们是: IP-in-IP 隧道, GRE 隧道和非内核隧道(如PPTP).
5.1. 关于隧道的几点注释
隧道可以用于实现很多非常不一般而有趣的功能.但如果你的配置有问题,却也
会发生可怕的错误.除非你确切地知道你在做什么,否则不要把缺省路由指向一
个隧道设备.而且,隧道会增加协议开销,因为它需要一个额外的IP包头.一
般应该是每个包增加20个字节,所以如果一个网络的MTU是1500字节的话,
使用隧道技术后,实际的IP包长度最长只能有1480字节了.这倒不是什么原则
性的问题,但如果你想使用隧道技术构建一个比较大规模的网络的话,最好仔细
研究一下关于IP包的分片和汇聚的知识.哦,还有,挖一个隧道最好的方法当
然是同时从两头挖.
5.2. IP-in-IP 隧道
这种隧道在Linux上已经实现很长一段时间了.需要两个内核模块:ipip.o 和
new_tunnel.o.
比如说你有3个网络:内部网A和B,中间网C(比如说:Internet).A网络的情
况:
网络地址
1
0.0.1.0
子网掩码
2
55.255.255.0
路由器
1
0.0.1.1
路由器在C网络上的地址是172.16.17.18.
B网络的情况:
网络地址
1
0.0.2.0
子网掩码
2
55.255.255.0
路由器
1
0.0.2.1
15
路由器在C网络上的IP地址是 172.19.20.21.
已知C网络已经连通,我们假定它会将所有的数据包从A传到B,反之亦然.
而且你可以随便使用Internet.
这就是你要做的:
首先,确认模块是否加载:
insmod ipip.o
insmod new_tunnel.o
然后,在A网络的路由器上输入:
ifconfig tunl0 10.0.1.1 pointopoint 172.19.20.21
route add -net 10.0.2.0 netmask 255.255.255.0 dev tunl0
并且在B网络的路由器上输入:
ifconfig tunl0 10.0.2.1 pointopoint 172.16.17.18
route add -net 10.0.1.0 netmask 255.255.255.0 dev tunl0
如果你想中止隧道,输入:
ifconfig tunl0 down
简单之极!但是你不能通过IP-in-IP隧道转发广播或者IPv6数据包.你只是连接
了两个一般情况下无法直接通讯的IPv4网络而已.至于兼容性,这部分代码已
经有很长一段历史了,它的兼容性可以上溯到1.3版的内核.据我所知,Linux
的IP-in-IP 隧道不能与其他操作系统或路由器互相通讯.它很简单,也很有效.
需要它的时候尽管使用,否则就使用GRE.
5.3. GRE 隧道
GRE是最初由CISCO开发出来的隧道协议,能够做一些IP-in-IP隧道做不到的
事情.比如,你可以使用GRE隧道传输多播数据包和IPv6数据包.在Linux下,
你需要ip_gre.o模块.
5.3.1. IPv4隧道
让我们先来做一做IPv4隧道:
比如说你有3个网络:内部网A和B,中间网C(比如说:Internet).A网络的情
况:
网络地址
1
0.0.1.0
子网掩码
2
55.255.255.0
路由器
1
0.0.1.1
16
路由器在C网络上的地址是172.16.17.18.我们称之为neta.
B网络的情况:
网络地址
1
0.0.2.0
子网掩码
2
55.255.255.0
路由器
1
0.0.2.1
路由器在C网络上的IP地址是 172.19.20.21.我们称之为netb.
已知C网络已经连通,我们假定它会将所有的数据包从A传到B,反之亦然.
至于原因,我们不考虑.
在A网络的路由器上,输入:
ip tunnel add netb mode gre remote 172.19.20.21 local 172.16.17.18 ttl 255
ip link set netb up
ip addr add 10.0.1.1 dev netb
ip route add 10.0.2.0/24 dev netb
让我们稍微讨论一下.第1行,我们添加了一个隧道设备,并且称之为netb(为
了能够表示出这个隧道通向哪里).并且表示要使用GRE协议 (mode gre),对端地
址是172.19.20.21(另一端的路由器),我们的隧道数据包发源于172.16.17.18(以便
当你的路由器在C网络中拥有多个地址的时候,你可以指定哪一个应用于隧道)
并且包的TTL字段应设置为255(ttl 255).
第2行,启用该隧道.
第3行,我们给这个新生的网卡配置了一个IP:10.0.1.1.对于小网络来说足够
了,但如果你网络中的隧道多得象无证运营的小煤窑一样,你可能就要考虑给你
的隧道规划一个单独的IP地址范围(在本例中,你可以使用10.0.3.0).
第4行,我们为B网络设置了一条路由.注意子网掩码的另一种表示方法.如
果你不熟悉这种表示,我就来解释一下:你把你的子网掩码写成二进制形式,数
数里面由多少个1.如果你连这个也不会做,不妨就简单地记住:255.0.0.0 就是
/8,255.255.0.0 就是 /16, 255.255.255.0 就是 /24.
让我们再看看B网络的路由器.
ip tunnel add neta mode gre remote 172.16.17.18 local 172.19.20.21 ttl 255
ip link set neta up
ip addr add 10.0.2.1 dev neta
ip route add 10.0.1.0/24 dev neta
如果你想从A路由器中停止隧道,输入:
ip link set netb down
ip tunnel del netb
当然,你可以把netb换成neta,在B路由器上操作.
17
5.3.2. IPv6隧道
关于IPv6地址,请参看第6章第1节.
这就开始吧.
我们假设你有如下的IPv6网络,你想把它连接到6bone或者一个朋友那里.
Network 3ffe:406:5:1:5:a:2:1/96
你的IPv4地址是172.16.17.18,6bone 路由器的IPv4地址是172.22.23.24.
ip tunnel add sixbone mode sit remote 172.22.23.24 local 172.16.17.18 ttl 255
ip link set sixbone up
ip addr add 3ffe:406:5:1:5:a:2:1/96 dev sixbone
ip route add 3ffe::/15 dev sixbone
让我们来讨论一下.我们创建了一个叫做sixbone的隧道设备.我们设置它的模
式是sit(也就是在IPv4隧道中使用IPv6)并且告诉它对端(remote)和本端 (local)
在哪里.TTL设置为最大,255.接着,我们激活了这个设备(up).然后,我们
添加了我们自己的网络地址,并添加了一条通过隧道去往3ffe::/15 (现在全部属
于6bone)的路由.
GRE隧道是现在最受欢迎的隧道技术.它也广泛地应用于Linux世界之外并成
为一个标准,是个好东西.
5.4. 用户级隧道
在内核之外,还有很多实现隧道的方法,最闻名的当然要数PPP和PPTP,但实
际上还有很多(有些是专有的,有些是安全的,有些甚至根本不用IP),但那远远
超出了本HOWTO所涉及的范围.
18
第6章 用Cisco和6bone实现IPv6
隧道
Marco Davids marco@sara.nl 著
NOTE to maintainer:
As far as I am concerned, this IPv6-IPv4 tunneling is not per definition GRE
tunneling. You could tunnel IPv6 over IPv4 by means of GRE tunnel devices (GRE
tunnels ANY to IPv4), but the device used here ("sit" only tunnels IPv6 over IPv4
and is therefore something different.
6.1. IPv6隧道
这是Linux隧道能力的另一个应用.这在IPv6的早期实现中非常流行.下面动
手试验的例子当然不是实现IPv6隧道的唯一方法.然而,它却是在Linux与支
持IPv6的CISCO路由器之间搭建隧道的常用方法,经验证明多数人都是照这样
做的.八成也适合于你 .
简单谈谈IPv6地址:
相对于IPv4地址而言, IPv6地址非常大,有128bit而不是32bit.这让我们得到
了我们需要的东西——非常非常多的IP地址.确切地说,有
340,282,266,920,938,463,463,374,607,431,768,211,465个.同时,IPv6(或者叫Ipng,
下一代IP)还能让Internet上的骨干路由器的路由表变得更小,设备的配置更简
单,IP层的安全性更好以及更好地支持QoS.
例如: 2002:836b:9820:0000:0000:0000:836b:9886
写下一个IPv6地址确实是件麻烦事.所以我们可以使用如下规则来进行简化 :
数字打头的零不要写,就像IPv4一样.
每16bit或者两个字节之间使用冒号分隔.
当出现很多连续的零时可简写成"::".在一个地址中只能使用一次.
例如:地址2002:836b:9820:0000:0000:0000:836b:9886可以写成:
2002:836b:9820::836b:9886,看上去更简单些.
另一个例子:地址3ffe:0000:0000:0000:0000:0020:34A1:F32C可以写成
3ffe::20:34A1:F32C,要短得多.
19
IPv6将可能取代现有的IPv4.因为它采用了相对更新的技术,所以现在还没有
全球范围的IPv6网络.为了能够平滑地过渡,引入了6bone计划.
IPv6网络中的站点通过现有的IPv4体系互联,把IPv6数据包封装在IPv4数据
包中进行传输.
这就是为什么引入隧道机制的原因.
为了能够使用IPv6,我们需要一个能够支持它的内核.现在有很多文档都很好
地说明了这个问题.不外乎以下几步:
找到一个新版的Linux发行版,要有合适的glibc库.
找到一份最新的内核源代码.
都准备好了以后,就可以继续编译一个带IPv6支持的内核了:
cd /usr/src/linux
make menuconfig
选择"Networking Options"
选择"The IPv6 protocol","IPv6: enable EUI-64 token format", "IPv6:
disable provider based addresses"
提示:不要编译成内核模块,那样经常会出问题.换句话说,就是把IPv6内置
入内核.
然后你就可以象往常一样保存配置并编译内核了.
提示:在编译之前,可以修改一下Makefile,把EXTRAVERSION = -x变成
EXTRAVERSION = -x-IPv6
有很多文档都很好地说明了如何编译并安装一个内核,我们这篇文档不是讨论这
个问题的.如果你在这个过程中出现了问题,请参阅合适的资料.你可以先看看
/usr/src/linux/README.
当你完成之后,用新的内核重启系统,你可以输入"/sbin/ifconfig -a"看看有没
有新的"sit0-device"设备.SIT的意思是"简单Internet过渡"Simple Internet
Transition).如果到这里没有问题,你就可以奖励自己了,你已经向着下一代IP
网络迈进了一大步.
现在继续下一步.你需要把你的主机,或甚至整个局域网连接到另外一个IPv6
网络上.这个网络很可能是"6bone",它就是为了这个特定的目的而专门设立的.
让我们假定你有如下IPv6网络: 3ffe:604:6:8::/64,并且希望连接到6bone,或者
其他地方.请注意,/64这个子网声明的意义与IPv4相同.
你的IPv4地址是145.100.24.181,6bone的路由器的IPv4地址是145.100.1.5.
# ip tunnel add sixbone mode sit remote 145.100.1.5 [local 145.100.24.181 ttl 255]
# ip link set sixbone up
# ip addr add 3FFE:604:6:7::2/126 dev sixbone
# ip route add 3ffe::0/16 dev sixbone
20
/proc/sys/net/ipv6/conf/all/forwarding
# /usr/local/sbin/radvd
下面的一行,radvd是一个类似于zebra的路由公告守护程序,用来支持IPv6的
自动配置特性.如果感兴趣的话就用你最喜欢的搜索引擎找一找.你可以检查一
下:
# /sbin/ip -f inet6 addr
如果你的Linux网关支持IPv6且运行了radvd,在局域网上启动后,你就可以享
受IPv6的自动配置特性了:
# /sbin/ip -f inet6 addr
1: lo: mtu 3924 qdisc noqueue inet6 ::1/128 scope host
3: eth0: mtu 1500 qdisc pfifo_fast qlen 100
inet6 3ffe:604:6:8:5054:4cff:fe01:e3d6/64 scope global dynamic
valid_lft forever preferred_lft 604646sec inet6 fe80::5054:4cff:fe01:e3d6/10
scope link
你可以继续进行了,为IPv6配置你的bind.与A记录等价的,支持IPv6的记录
类型是"AAAA".与in-addr.arpa等价的是"ip6.int".这方面可以找到很多信息.
支持IPv6的应用系统曾在增加,包括ssh,telnet,inetd,Mozilla浏览器,Apache
WEB浏览器…….但那些都不是这个路由文档所应该涉及的.
作为Cisco系统,应该这样配置:
!
interface Tunnel1
description IPv6 tunnel
no ip address
no ip directed-broadcast
ipv6 address 3FFE:604:6:7::1/126
tunnel source Serial0
tunnel destination 145.100.24.181
tunnel mode ipv6ip
!
ipv6 route 3FFE:604:6:8::/64 Tunnel1
但如果你没有Cisco作为disposal,试试Internet上的众多IPv6隧道提供者之一.
他们愿意在他们的Cisco设备上为你额外创建一个隧道.大部分是友好的WEB
界面.用你常用的搜索引擎搜索一下"ipv6 tunnel broker".
21
【论坛浏览】 【我来说两句】 【打印】 【大】 【中】 【小】 【关闭】

 相关评论
作者: hew 发布日期: 2006-3-08
第7章 IPSEC:Internet上安全的IP
现在,在Linux上有两种IPSEC可用.对于2.2和2.4,第一个比较正规的实现
有FreeS/WAN.他们有一个官方站点和一个经常维护的非官方站点.出于多种
原因,FreeS/WAN历来没有被合并到内核的主线上.最常提到的原因就是政治
问题——违反了美国的密码产品扩散条例.所以它不会被集成到Linux内核中.
另外,很多合作伙伴表明了他们对代码质量的忧虑.关于如何设置FreeS/WAN,
有很多文档可以参考.
Linux 2.5.47版内核里有一个内置的IPSEC实现,是由Alexey Kuznetsov和Dave
Miller在USAGI IPv6 小组的启发下写成的.经过这次合并,James Morris的
CrypoAPI也成了内核的一部分——它能够真正地加密.
本HOWTO文档仅收录2.5以上版本内核的IPSEC.Linux 2.4内核的用户推荐使
用FreeS/WAN.但是要注意,它的配置方法与内置IPSEC不同.
2.5.49版内核的IPSEC不再需要任何补丁.
我在这里收集了Alexey或Dave Miller发布的一些补丁.对于2.5.48版的内
核,在报告BUG之前请确认已经打上了那些补丁!(迄今还没有2.5.49这方
面的补丁).一些简单的用户级工具可以在这里 (编译好的可执行文件和手
册)找到.编译这些用户级工具需要修改Makefiles指向你的2.5.x内核.这种
情况可望很快解决.
编译你的内核的时候,要确认已经打开CryptoAPI中的"PF_KEY","AH",
"ESP"以及其他所有选项!netfilter中的TCP_MSS方法现在不能用,请关
掉.
本章的作者对于IPSEC完全是外行(nitwit)!如果你发现了错误,请email
通知bert hubert .
首先,我们展示一下如何在两个主机之间手动设置安全通讯.其间的大部分工作
都可以自动完成,但是为了了解细节我们仍然用手动完成.
如果你仅仅对自动密钥管理感兴趣,请跳过下面一节.但是要知道,了解手动密
要管理是很有用的.
7.1. 从手动密钥管理开始
22
IPSEC是一个复杂的主题.有很多在线信息可以查阅,这个HOWTO将集中讲
解如何设置,运行并解释一些基本原理.
很多iptables配置会丢弃IPSEC数据包!要想让IPSEC通过,运行
iptables -A xxx -p 50 -j ACCEPT
iptables -A xxx -p 51 -j ACCEPT
IPSEC提供了一个安全的IP协议版本.所谓的"安全"意味着两件事情:加密
与验证.如果认为安全仅仅就是加密哪就太天真了,很容易看出来那是不够的
——你的通讯过程或许是加密的,但是你如何保证与你通讯的对端就是你期望中
的人呢?
IPSEC使用ESP('Encapsulated Security Payload',安全载荷封装) 来支持加密,使用
AH(Authentication Header,头部验证)来支持对端验证.你可以同时使用二者,
也可以使用二者之一.
ESP和AH都依靠SA(security associations,安全联盟)来工作.一个SA由一个源,
一个目的和一个说明组成.一个验证SA看上去应该是:
add 10.0.0.11 10.0.0.216 ah 15700 -A hmac-md5 "1234567890123456";
意思是:"从10.0.0.11到10.0.0.216的数据包需要AH,使用HMAC-MD5签名,
密码是1234567890123456".这个说明的SPI(Security Parameter Index,安全参数
索引)号码是'15700',细节后面再谈.有意思的是一个会话的两端都使用相同的
SA——它们是全等的,而不是镜像对称的.要注意的是,SA并没有自动翻转规
则——这个SA仅仅描述了从10.0.0.11到10.0.0.216的认证.如果需要双向安全,
需要2条SA.
一个简单地ESP SA:
add 10.0.0.11 10.0.0.216 esp 15701 -E 3des-cbc "123456789012123456789012";
意思是:"从10.0.0.11到10.0.0.216的数据包需要ESP,使用3des-cbc加密算法,
密码是123456789012123456789012".SPI号码是'15701'.
到此,我们看到SA描述了所有的说明,但它并没有描述应该什么时候用到这些
策略.实际上,可以有很多完全相同的SA,除了它们之间的SPI不同.顺便提
一句,SPI的意思是Security Parameter Index(安全参数索引).为了进行加密操作,
我们需要声明一个策略.这个策略可以包含诸如"如果可能的话使用ipsec"或
者"除非我们有ipsec否则丢弃数据包"这样的东西.
最简单的典型SP(Security Policy,安全策略)应该是这样:
spdadd 10.0.0.216 10.0.0.11 any -P out ipsec
esp/transport//require
ah/transport//require;
如果在10.0.0.216上输入这个,就意味着凡是去往10.0.0.11的数据包必须经过加
密并附带AH头验证.要注意,它并没有指出使用哪一个SA,那是留给内核来
23
10.0.0.216: icmp: echo reply
注意,可看出从10.0.0.11返回的包的确是明码传输.Ping的进一步细节用tcpdump
当然看不到,但是它还是显示了用来告诉10.0.0.11如何进行解密和验证的参数
——AH和ESP的SPI值.
还有几件事情必须提及.上面给出的配置在很多IPSEC的配置范例中都有引用,
但确实是很危险的.问题就在于上述配置包含了10.0.0.216应该如何处理发往
10.0.0.11的包,和10.0.0.1如何解释那些包,但是却没有指出10.0.0.11应当丢弃
来自10.0.0.216的未进行加密及验证的包!
任何人都可以插入完全未加密的欺骗包,而10.0.0.11会不假思索地接受.为了
弥补上述漏洞我们必须在10.0.0.11上增加一个针对进入数据包的SP,如下:
#!/sbin/setkey -f
spdadd 10.0.0.216 10.0.0.11 any -P IN ipsec
esp/transport//require
ah/transport//require;
这就指明了10.0.0.11收到来自10.0.0.216的包的时候需要正确的ESP和AH处理.
现在,我们完成这个配置,我们当然也希望回去的数据包也进行加密和头验证.
10.0.0.216上完整的配置应该是:
24
#!/sbin/setkey -f
flush;
spdflush;
# AH
add 10.0.0.11 10.0.0.216 ah 15700 -A hmac-md5 "1234567890123456";
add 10.0.0.216 10.0.0.11 ah 24500 -A hmac-md5 "1234567890123456";
# ESP
add 10.0.0.11 10.0.0.216 esp 15701 -E 3des-cbc "123456789012123456789012";
add 10.0.0.216 10.0.0.11 esp 24501 -E 3des-cbc "123456789012123456789012";
spdadd 10.0.0.216 10.0.0.11 any -P out ipsec
esp/transport//require
ah/transport//require;
spdadd 10.0.0.11 10.0.0.216 any -P in ipsec
esp/transport//require
ah/transport//require;
10.0.0.11上:
#!/sbin/setkey -f
flush;
spdflush;
# AH
add 10.0.0.11 10.0.0.216 ah 15700 -A hmac-md5 "1234567890123456";
add 10.0.0.216 10.0.0.11 ah 24500 -A hmac-md5 "1234567890123456";
# ESP
add 10.0.0.11 10.0.0.216 esp 15701 -E 3des-cbc "123456789012123456789012";
add 10.0.0.216 10.0.0.11 esp 24501 -E 3des-cbc "123456789012123456789012";
spdadd 10.0.0.11 10.0.0.216 any -P out ipsec
esp/transport//require
ah/transport//require;
spdadd 10.0.0.216 10.0.0.11 any -P in ipsec
esp/transport//require
ah/transport//require;
注意,本例中通信双方的加密密钥是一样的.这在实际中是不会出现的.
为了检测一下我们刚才的配置,运行一下:
setkey -D
就会显示出SA,或者用
setkey -DP
显示出SP.
7.2. 自动密钥管理
25
在上一节中,使用了简单共享的密码进行加密.换句话说,为了保密,我们必须
通过一个安全的通道把加密配置传给对方.如果我们使用telnet配置对端的机器,
任何一个第三方都可能知道我们的共享密码,那么设置就是不安全的.
而且,因为密码是共享的,所以它就不成为真正意义的密码.就算对端不能用它
做什么,但我们需要为每一个要进行IPSEC通讯的对方都设置互补相同的密码.
这需要生成大量的密钥,如果有10个成员需要通讯,就至少需要50个不同的密
码.
除了对称密钥的问题之外,还有解决密钥轮转的问题.如果第三方搜集到足够的
数据包,就有可能反向计算出密钥.这可以通过每隔一段时间换用一个新密钥来
解决,但是这必须自动完成.
另一个问题是,如上所述的手动密钥管理,我们必须精确地指定算法和密钥长度,
与对端的协调也是个大问题.我们渴望能够用一种比较宽松的方式来描述密钥策
略,比如说:"我们可以用3DES或者Blowfish算法,密钥长度至少是多少多少
位".
为了满足这些要求,IPSEC提供了IKE(Internet Key Exchange,Internet密钥交换)
来自动随机生成密钥,并使用协商好的非对称加密算法进行密钥交换.
Linux 2.5的IPSEC实现利用KAME的"racoon"IKE守护程序来进行.截止到
11月9日,在Alexey的iptools发布包中的racoon是可以编译的,但是需要从两
个文件中删除#include .你也可以下载我提供的编译好的版本.
IKE需要使用UDP的500端口,确认你的iptables不会挡住数据包.
7.2.1. 理论
象前面所解释的自动密钥管理会为我们做很多事情.特别地,它会自动地动态生
成SA.不象大家所以为的那样,它并不会为我们设置SP.
所以,如果想使用IKE,需要设置好SP,但不要设置任何SA.内核如果发现有
一个IPSEC的SP,但不存在任何相应的SA,就会通知IKE守护程序,让它去
协商.
重申,一个SP决定了我们需要什么;而SA决定了我们如何得到它.使用自动
密钥管理就可以让我们只关心需要什么就够了.
7.2.2. 举例
Kame的racoon有非常多的选项,其中绝大部分都已经配置好了缺省值,所以我
们不用修改它们.象上面描述的,管理员需要定义一个SP而不配置SA,留给
IKE守护程序去协商.
在这个例子中,仍然是10.0.0.11和10.0.0.216之间需要配置安全通讯,但这次要
26
借助于racoon.为了简单起见,这个配置使用预先共享的密钥(又是可怕的共享
密钥).X.509证书的问题单独讨论,参见后面的7.2.3.
我们尽量保持缺省配置,两台机器是一样的:
path pre_shared_key "/usr/local/etc/racoon/psk.txt";
remote anonymous
{
exchange_mode aggressive,main;
doi ipsec_doi;
situation identity_only;
my_identifier address;
lifetime time 2 min; # sec,min,hour
initial_contact on;
proposal_check obey; #
obey, strict or claim
proposal {
encryption_algorithm 3des;
hash_algorithm sha1;
authentication_method pre_shared_key;
dh_group 2 ;
}
}
sainfo anonymous
{
pfs_group 1;
lifetime time 2 min;
encryption_algorithm 3des ;
authentication_algorithm hmac_sha1;
compression_algorithm deflate ;
}
有很多设置,我认为仍然有很多可以去掉而更接近缺省配置.很少有值得注意的
事情.我们已经配置了两个匿名配置支持所有的对端机器,让将来的配置简单些.
这里没有必要为每台机器各写一个段落,除非真的必要.
此外,我们还设置了我们基于我们的IP地址来识别我们自己('my_identifier
address'),并声明我们可以进行3DES,sha1,并且我们将使用预先共享的密钥,
写在psk.txt中.
在psk.txt中,我们设置两个条目,两台机器上都不一样.
在10.0.0.11上:
10.0.0.216
password2
在10.0.0.216上:
10.0.0.11
password2
确认这些文件必须为root所有,属性是0600,否则racoon将不信任其内容.两
个机器上的这个文件是镜像对称的.
现在,我们就剩下设置SP了,这比较简单.
在10.0.0.216上:
27
#!/sbin/setkey -f
flush;
spdflush;
spdadd 10.0.0.216 10.0.0.11 any -P out ipsec
esp/transport//require;
spdadd 10.0.0.11 10.0.0.216 any -P in ipsec
esp/transport//require;
在10.0.0.11上:
#!/sbin/setkey -f
flush;
spdflush;
spdadd 10.0.0.11 10.0.0.216 any -P out ipsec
esp/transport//require;
spdadd 10.0.0.216 10.0.0.11 any -P in ipsec
esp/transport//require;
请注意这些SP的镜像对称规律.
我们可以启动racoon了!一旦启动,当我们试图从10.0.0.11到10.0.0.216进行
telnet的时候,racoon就会开始协商:
12:18:44: INFO: isakmp.c:1689:isakmp_post_acquire(): IPsec-SA
request for 10.0.0.11 queued due to no phase1 found.
12:18:44: INFO: isakmp.c:794:isakmp_ph1begin_i(): initiate new
phase 1 negotiation: 10.0.0.216[500]10.0.0.11[500]
12:18:44: INFO: isakmp.c:799:isakmp_ph1begin_i(): begin Aggressive mode.
12:18:44: INFO: vendorid.c:128:check_vendorid(): received Vendor ID:
KAME/racoon
12:18:44: NOTIFY: oakley.c:2037akley_skeyid(): couldn't find
the proper pskey, try to get one by the peer's address.
12:18:44: INFO: isakmp.c:2417:log_ph1established(): ISAKMP-SA
established 10.0.0.216[500]-10.0.0.11[500] spi:044d25dede78a4d1:ff01e5b4804f0680
12:18:45: INFO: isakmp.c:938:isakmp_ph2begin_i(): initiate new phase 2
negotiation: 10.0.0.216[0]10.0.0.11 spi=15863890(0xf21052)
如果我们现在运行setkey -D列出SA,就会发现已经存在了:
10.0.0.216 10.0.0.11
esp mode=transport spi=224162611(0x0d5c7333) reqid=0(0x00000000)
E: 3des-cbc 5d421c1b d33b2a9f 4e9055e3 857db9fc 211d9c95 ebaead04
A: hmac-sha1 c5537d66 f3c5d869 bd736ae2 08d22133 27f7aa99
seq=0x00000000 replay=4 flags=0x00000000 state=mature
created: Nov 11 12:28:45 2002
current: Nov 11 12:29:16 2002
diff: 31(s)
hard: 600(s)
soft: 480(s)
last: Nov 11 12:29:12 2002
hard: 0(s)
soft: 0(s)
current: 304(bytes)
hard: 0(bytes)
soft: 0(bytes)
28
allocated: 3
hard: 0
soft: 0
sadb_seq=1 pid=17112 refcnt=0
10.0.0.11 10.0.0.216
esp mode=transport spi=165123736(0x09d7969 reqid=0(0x00000000)
E: 3des-cbc d7af8466 acd4f14c 872c5443 ec45a719 d4b3fde1 8d239d6a
A: hmac-sha1 41ccc388 4568ac49 19e4e024 628e240c 141ffe2f
seq=0x00000000 replay=4 flags=0x00000000 state=mature
created: Nov 11 12:28:45 2002
current: Nov 11 12:29:16 2002
diff: 31(s)
hard: 600(s)
soft: 480(s)
last:
hard: 0(s)
soft: 0(s)
current: 231(bytes)
hard: 0(bytes)
soft: 0(bytes)
allocated: 2
hard: 0
soft: 0
sadb_seq=0 pid=17112 refcnt=0
我们的SP是如下配置的:
10.0.0.11[any] 10.0.0.216[any] tcp
in ipsec
esp/transport//require
created:Nov 11 12:28:28 2002 lastused:Nov 11 12:29:12 2002
lifetime:0(s) validtime:0(s)
spid=3616 seq=5 pid=17134
refcnt=3
10.0.0.216[any] 10.0.0.11[any] tcp
out ipsec
esp/transport//require
created:Nov 11 12:28:28 2002 lastused:Nov 11 12:28:44 2002
lifetime:0(s) validtime:0(s)
spid=3609 seq=4 pid=17134
refcnt=3
7.2.2.1. 问题和常见的疏忽
如果不工作,检查一下所有的配置文件是不是为root所有,而且只有root才能
读取.如想前台启动racoon,就加上"-F"参数.如想强制它读取某一个配置文
件来取代缺省配置文件,使用参数"-f".如想看到超级详细的细节,往racoon.conf
中加入"log debug;"一行.
7.2.3. 使用X.509证书进行自动密钥管理
如前所述,之所以共享密码很困难,是因为它们一旦共享,就不再成为真正意义
的密码.幸运的是,我们仍可以用非对称加密技术来解决这个问题.
如果IPSEC的每个参与者都生成一对公钥和私钥,就可以让双方公开它们的公
29
钥并设置策略,从而建立安全连接.
虽然需要一些计算,但生成密钥还是相对比较简单的.以下都是基于openssl工
具实现的.
7.2.3.1. 为你的主机生成一个X.509证书
OpenSSL搭好了很多基础结构,以便我们能够使用经过或者没有经过CA签署的
密钥.现在,我们就围绕这些基础结构,并练习一下使用著名的Snake Oil安全,
而不是使用CA.
首先,我们为主机laptop发起一个"证书请求":
$ openssl req -new -nodes -newkey rsa:1024 -sha1 -keyform PEM -keyout
laptop.private -outform PEM -out request.pem
这是可能问我们的问题:
Country Name (2 letter code) [AU]:NL
State or Province Name (full name) [Some-State]:.
Locality Name (eg, city) []elft
Organization Name (eg, company) [Internet Widgits Pty Ltd]:Linux Advanced
Routing & Traffic Control
Organizational Unit Name (eg, section) []:laptop
Common Name (eg, YOUR name) []:bert hubert
Email Address []:ahu@ds9a.nl
Please enter the following 'extra' attributes
to be sent with your certificate request
A challenge password []:
An optional company name []:
请你根据自己的实际情况完整填写.你可以把你的主机名写进去,也可以不写,
取决于你的安全需求.这个例子中,我们写了.
我们现在自己签署这个请求:
$ openssl x509 -req -in request.pem -signkey laptop.private -out
laptop.public
Signature ok
subject=/C=NL/L=Delft/O=Linux Advanced Routing & Traffic
Control/OU=laptop/CN=bert hubert/Email=ahu@ds9a.nl
Getting Private key
现在,"request.pem"这个文件已经没用了,可以删除.
在你需要证书的每台机器上都重复上述过程.你现在就可以放心地发布你的
"*.public"文件了,但是一定要保证"*.private"是保密的!
7.2.3.2. 设置并启动
我们一旦拥有了一对公钥和私钥,就可以告诉racoon去使用它们了.
现在我们回到上面的配置中的两台机器,10.0.0.11 (upstairs)和10.0.0.216(laptop).
在10.0.0.11上的racoon.conf中,我们添加:
30
path certificate "/usr/local/etc/racoon/certs";
remote 10.0.0.216
{
exchange_mode aggressive,main;
my_identifier asn1dn;
peers_identifier asn1dn;
certificate_type x509 "upstairs.public" "upstairs.private";
peers_certfile "laptop.public";
proposal {
encryption_algorithm 3des;
hash_algorithm sha1;
authentication_method rsasig;
dh_group 2 ;
}
}
它们告诉racoon:证书可以在/usr/local/etc/racoon/certs/那里找到.而且还包含了
专门为10.0.0.216而写的配置项.
包含"asn1dn"的行告诉racoon,本端和对端的标识都从公钥中提取.也就是上
面输出的"subject=/C=NL/L=Delft/O=Linux Advanced Routing & Traffic
Control/OU=laptop/CN=bert hubert/Email=ahu@ds9a.nl".
"certificate_type"那一行配置了本地的公钥和私钥."peers_certfile"这行告诉
racoon读取名叫"laptop.public"的文件取得对端的公钥.
"proposal"这一段与你以前看到的基本一致,除了"authentication_method"
的值变成了"rsasig",意思是使用RSA 公钥/私钥对.
在10.0.0.216上面的配置文件与上面的是完全镜像关系,没有其它改变:
path certificate "/usr/local/etc/racoon/certs";
remote 10.0.0.11
{
exchange_mode aggressive,main;
my_identifier asn1dn;
peers_identifier asn1dn;
certificate_type x509 "laptop.public" "laptop.private";
peers_certfile "upstairs.public";
proposal {
encryption_algorithm 3des;
hash_algorithm sha1;
authentication_method rsasig;
dh_group 2 ;
}
}
现在,我们已经把两台机器的配置文件改好了,然后就应该把证书文件拷贝到正
确的位置."upstairs"这台机器需要往/usr/local/etc/racoon/certs中放入
upstairs.private,upstairs.public和laptop.public.请确认这个目录属于root,且属
性为0600,否则racoon会拒绝使用!
"laptop"这台机器需要往/usr/local/etc/racoon/certs 中放入laptop.private,
laptop.public和upstairs.public.也就是说,每台机器都需要本端的公钥和私钥,
31
以及对端的公钥.
确认一下已经写好了SP(执行在7.2.2中提到的spdadd).然后启动racoon,就应
该可以工作了.
7.2.3.3. 如何安全地建立隧道
为了与对端建立安全的通讯,我们必须交换公钥.公钥没必要保密,重要的是要
保证它不被替换.换句话说,要确保没有"中间人".
为了简化这个工作,OpenSSL提供了"digest"命令:
$ openssl dgst upstairs.public
MD5(upstairs.public)= 78a3bddafb4d681c1ca8ed4d23da4ff1
现在我们要做的就是检验一下对方是否能够得到相同的MD5散列值.这可以通
过真实地接触来完成,也可以通过电话,但是一定不要与公钥放在同一封电子邮
件里发送!
另一个办法是通过一个可信的第三方(CA)来实现.这个CA会为你的密钥进
行签名,而不是象上面那样由我们自己签名.
7.3. IPSEC隧道
迄今为止,我们只是认识了IPSEC的"transport"透明)模式,也就是通讯的两
端都能够直接理解IPSEC.这不能代表所有的情况,有时候我们只需要路由器理
解IPSEC,路由器后面的机器利用它们进行通讯.这就是所谓的"tunnel mode"
(隧道模式).
设置这个极其简单.如果想通过10.0.0.216与10.0.0.11建立的隧道来传输从
10.0.0.0/24到130.161.0.0/16的数据包,按下面配置就可以:
#!/sbin/setkey -f
flush;
spdflush;
add 10.0.0.216 10.0.0.11 esp 34501
-m tunnel
-E 3des-cbc "123456789012123456789012";
spdadd 10.0.0.0/24 130.161.0.0/16 any -P out ipsec
esp/tunnel/10.0.0.216-10.0.0.11/require;
注意."-m tunnel"是关键!这里首先配置了一个隧道两端(10.0.0.216与10.0.0.11)
使用ESP的SA.
然后配置了实际的隧道.它指示内核,对于从10.0.0.0/24到130.161.0.0/16的数
据包需要加密.而且这些数据包被发往10.0.0.11.
10.0.0.11也需要相同的配置:
#!/sbin/setkey -f
flush;
32
spdflush;
add 10.0.0.216 10.0.0.11 esp 34501
-m tunnel
-E 3des-cbc "123456789012123456789012";
spdadd 10.0.0.0/24 130.161.0.0/16 any -P in ipsec
esp/tunnel/10.0.0.216-10.0.0.11/require;
注意,与上面基本一样,除了把"-P out"换成了"-P in".就象先前的例子一样,
我们只配置了单向的传输.完整地实现双向传输就留给读者自己研究实现吧.
这种配置的另一个更直观的名字叫做"ESP代理(proxy ESP)".
IPSEC隧道需要内核能够进行IP转发!
7.4. 其它IPSEC软件
Thomas Walpuski报告说它已经写了一个补丁,可以让OpenBSD的isakpmd与
Linux 2.5的IPSEC协同工作.可以在这个网页找到.他指出isakpmd在Linux
上仅仅需要libkeynote支持.根据他的说法,在Linux 2.5.59上面工作得很好.
isakpmd与前面提到的racoon由很大的不同,但是很多人喜欢用它,可以在这里
找到.这里有OpenBSD CVS.Thomas还为那些不习惯用CVS或者patch的人
们制作了一个tarball.
7.5. IPSEC与其它系统的互操作
求助: Write this
7.5.1. Windows
33
/proc/sys/net/ipv4/ip_forward
在这里,你可能想知道是否起了作用.所以我们ping一下缺省组224.0.0.1,看
看有没有人在.在你的LAN上所有配置并启用了多播的机器都应该予以回应,
其他机器则不会.但你会注意到,没有任何一台机器回应的时候声明自己是
224.0.0.1,多么令人惊奇 !因为这是一个组地址(对于接收者来说是"广播",
所以组中的所有成员都用它们的地址来回应,而不是用组地址来回应.
ping -c 2 224.0.0.1
34
到此,你已经可以实现真正的多播路由了.好的,假定你需要在两个网络间进行
路由.
(To Be Continued!)
35
byte/s
9.1. 解释队列和队列规定
利用队列,我们决定了数据被发送的方式.必须认识到,我们只能对发送数据进
行整形.
根据Internet的工作方式,我们无法直接控制别人向我们发送什么数据.有点象
我们家里的信报箱,你不可能控制全世界,联系每一个人,修改别人对你发送邮
件的数量.
然而,Internet主要依靠TCP/IP,它的一些特性很有用.因为TCP/IP没办法知道
两个主机之间的网络容量,所以它会试图越来越快地发送数据(所谓的"慢起技
术" ,当因为网络容量不够而开始丢失数据时,再放慢速度.实际情况要比这
种方法更聪明,我们以后再讨论.
这就象当你尚未读完一半邮件时,希望别人停止给你寄信.与现实世界不同,在
Internet上可以做到这一点.(译注:这个例子并不恰当,TCP/IP的这种机制并不
是在网络层实现的,而是要靠传输层的TCP协议)
如果你有一个路由器,并且希望能够防止某些主机下载速度太快,你需要在你路
由器的内网卡——也就是向你的网内主机发送数据包的网卡——上进行流量整
形.
你还要保证你正在控制的是瓶颈环节.如果你有一个100M以太网卡,而你的路
由器的链路速度是256k,你必须保证你发送的数据量没有超过路由器的处理能
力.否则,就是路由器在控制链路和对带宽进行整形,而不是你.可以说,我们
需要拥有的队列必须是一系列链路中最慢的环节.幸运的是这很容易.
36
9.2. 简单的无类队列规定
如前所述,利用队列,我们决定了数据被发送的方式.无类队列规定就是那样,
能够接受数据和重新编排,延迟或丢弃数据包.
这可以用作对于整个网卡的流量进行整形,而不细分各种情况.在我们进一步学
习分类的队列规定之前,理解这部分是必不可少的!
最广泛应用的规定是pfifo_fast队列规定,因为它是缺省配置.这也解释了为什
么其它那些复杂的功能为何如此健壮,因为那些都与缺省配置相似,只不过是其
他类型的队列而已.
每种队列都有它们各自的优势和弱点.
9.2.1. pfifo_fast
这个队列的特点就象它的名字——先进先出(FIFO),也就是说没有任何数据包
被特殊对待.至少不是非常特殊.这个队列有3个所谓的"频道".FIFO规则应
用于每一个频道.并且:如果在0频道有数据包等待发送,1频道的包就不会被
处理,1频道和2频道之间的关系也是如此.
内核遵照数据包的TOS标记,把带有"最小延迟"标记的包放进0频道.
不要把这个无类的简单队列规定与分类的PRIO相混淆!虽然它们的行为有些类
似,但对于无类的pfifo_fast而言,你不能使用tc命令向其中添加其它的队列规
定.
9.2.1.1. 参数与使用
pfifo_fast队列规定作为硬性的缺省设置,你不能对它进行配置.它缺省是这样
配置的:
priomap:
内核规定,根据数据包的优先权情况,对应相应的频道.这个对应是根据
数据包的TOS字节进行的.TOS看上去是这样的:
0 1 2 3 4 5 6 7
+-----+-----+-----+-----+-----+-----+-----+-----+
| | | |
| 优先权 | TOS | MBZ |
| | | |
+-----+-----+-----+-----+-----+-----+-----+-----+
TOS字段的4个bit是如下定义的:
二进制 十进制 意义
-----------------------------------------
1000 8 最小延迟 (md)
0100 4 最大throughput (mt)
0010 2 最大可靠性 (mr)
37
7),它们不对应TOS映射,但是有其它的意图.
下表来自RFC 1349,告诉你应用程序可能如何设置它们的TOS:
TELNET 1000 (minimize delay)
控制 1000 (minimize delay) FTP
数据 0100 (maximize throughput)
TFTP 1000 (minimize delay)
命令阶段 1000 (minimize delay) SMTP
数据阶段 0100 (maximize throughput)
UDP 查询 1000 (minimize delay)
TCP 查询 0000
Domain Name Service
区域传输 0100 (maximize throughput)
NNTP 0001 (minimize monetary cost)
报错 0000
请求 0000 (mostly)
ICMP
响应 (mostly)
txqueuelen
38
队列的长度来自网卡的配置,你可以用ifconfig和ip命令修改.如设置队
列长度为10,执行:ifconfig eth0 txqueuelen 10
你不能用tc命令设置这个!
9.2.2. 令牌桶过滤器(TBF)
令牌桶过滤器(TBF)是一个简单的队列规定:只允许以不超过事先设定的速率到
来的数据包通过,但可能允许短暂突发流量朝过设定值.
TBF很精确,对于网络和处理器的影响都很小.所以如果您想对一个网卡限速,
它应该成为您的第一选择!
TBF的实现在于一个缓冲器(桶),不断地被一些叫做"令牌"的虚拟数据以特定
速率填充着. (token rate).桶最重要的参数就是它的大小,也就是它能够存储
令牌的数量.
每个到来的令牌从数据队列中收集一个数据包,然后从桶中被删除.这个算法关
联到两个流上——令牌流和数据流,于是我们得到3种情景:
数据流以等于令牌流的速率到达TBF.这种情况下,每个到来的数据包都
能对应一个令牌,然后无延迟地通过队列.
数据流以小于令牌流的速度到达TBF.通过队列的数据包只消耗了一部分
令牌,剩下的令牌会在桶里积累下来,直到桶被装满.剩下的令牌可以在
需要以高于令牌流速率发送数据流的时候消耗掉,这种情况下会发生突发
传输.
数据流以大于令牌流的速率到达TBF.这意味着桶里的令牌很快就会被耗
尽.导致TBF中断一段时间,称为"越限".如果数据包持续到来,将发
生丢包.
最后一种情景非常重要,因为它可以用来对数据通过过滤器的速率进行整形.
令牌的积累可以导致越限的数据进行短时间的突发传输而不必丢包,但是持续越
限的话会导致传输延迟直至丢包.
请注意,实际的实现是针对数据的字节数进行的,而不是针对数据包进行的.
9.2.2.1. 参数与使用
即使如此,你还是可能需要进行修改,TBF提供了一些可调控的参数.第一个参
数永远可用:
limit/latency
limit确定最多有多少数据(字节数)在队列中等待可用令牌.你也可以
通过设置latency参数来指定这个参数,latency参数确定了一个包在TBF
中等待传输的最长等待时间.后者计算决定桶的大小,速率和峰值速率.
39
burst/buffer/maxburst
桶的大小,以字节计.这个参数指定了最多可以有多少个令牌能够即刻被
使用.通常,管理的带宽越大,需要的缓冲器就越大.在Intel体系上,
10兆bit/s的速率需要至少10k字节的缓冲区才能达到期望的速率.
如果你的缓冲区太小,就会导致到达的令牌没有地方放(桶满了),这会
导致潜在的丢包.
mpu
一个零长度的包并不是不耗费带宽.比如以太网,数据帧不会小于64字
节.Mpu(Minimum Packet Unit,最小分组单位)决定了令牌的最低消耗.
rate
速度操纵杆.参见上面的limits!
如果桶里存在令牌而且允许没有令牌,相当于不限制速率(缺省情况).If the
bucket contains tokens and is allowed to empty
阅读(1233) | 评论(0) | 转发(0) |
0

上一篇:wget常用法

下一篇:一块网卡设置多个IP

给主人留下些什么吧!~~