很多无用的Time_Wait连接导致: \"bind:address in use\"-djkpengjun-ChinaUnix博客

没有代码的日子会死djkpengjun.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

djkpengjun

博客访问： 1620994
博文数量： 399
博客积分： 8508
博客等级：中将
技术积分： 5302
用户组：普通用户
注册时间： 2009-10-14 09:28

个人简介

能力强的人善于解决问题，有智慧的人善于绕过问题。区别很微妙，小心谨慎做后者。

文章分类

全部博文（399）

Kotlin（0）
Archtecture（71）

数据库（1）

Kafka（1）

Domain_Driven_De（2）

搜索（1）

Linux Swiss（1）

编程（5）

Scrum（1）

前端架构（5）

MongoDB（3）

项目架构（10）

Node.js（1）

Angular（2）

AOP（1）

Guava（1）

Web Crawler（2）

Play（8）

高并发（15）

Load_Balance（3）

Hadoop（4）

REST（4）
金融IT常识（1）
信息压缩理论（1）
EMC的日子（16）

Shell Ahead（2）
简历（1）
wingdb调试（1）
职业规划（4）
养生（1）
分布式（4）
五险一金（1）
linux内核研究（15）
人际交往（2）
算法导论（1）
VS2005（0）
概率（21）
google（1）
百度分享（1）
跳槽必看（9）
智力题（7）
SHELL 脚本（2）
大规模数据处理（6）
POJ（16）
wince（1）
笔试面试（28）
ACM（17）
操作系统（10）
网络（14）
算法（55）

国际大学ACM程序（0）

国际大学ACM程序（15）

ACM程序设计培训（23）
数据结构（11）
c++（45）
嵌入式（19）
未分配的博文（17）

文章存档

2018年（3）

2017年（1）

2016年（1）

2015年（69）

2013年（14）

2012年（17）

2011年（12）

2010年（189）

2009年（93）

我的朋友

相关博文

很多无用的Time_Wait连接导致: "bind:address in use"

分类： LINUX

2009-10-20 14:29:00

前言：经常检查Apache的连接数，同样会发现很多无用的Time_Wait连接。有人说这是正常的，是因为一个请求中途中断造成的;还有人说微软的IE连接时产生的Time_wait会比用Firefox连接时多。个人认为有一定的Time_wait是正常的，

如果超过了连接数的比例就不是很正常，所以还是找来方法解决一下。

检查net.ipv4.tcp_tw当前值，将当前的值更改为1分钟：
[root@aaa1 ~]# sysctl -a|grep net.ipv4.tcp_tw
net.ipv4.tcp_tw_reuse = 0
net.ipv4.tcp_tw_recycle = 0
[root@aaa1 ~]#

vi /etc/sysctl
增加或修改net.ipv4.tcp_tw值：
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1

使内核参数生效：
[root@aaa1 ~]# sysctl -p

[root@aaa1 ~]# sysctl -a|grep net.ipv4.tcp_tw
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1

设置这两个参数： reuse是表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接； recyse是加速TIME-WAIT sockets回收

用netstat再观察正常
这里解决问题的关键是如何能够重复利用time_wait的值，我们可以设置时检查一下time和wait的值
#sysctl -a | grep time | grep wait
net.ipv4.netfilter.ip_conntrack_tcp_timeout_time_wait = 120
net.ipv4.netfilter.ip_conntrack_tcp_timeout_close_wait = 60
net.ipv4.netfilter.ip_conntrack_tcp_timeout_fin_wait = 120

今天检查了一下基本一台服务器,发现TIME_WAIT高到3k多（正常1000-2000没有问题）.TIME_WAIT本身并不会占用很大资源的，除非受到攻击.但太多服务器还是有可能挂掉.
TIME_WAIT 3699
CLOSE_WAIT 52
FIN_WAIT1 32
SYN_SENT 1
FIN_WAIT2 2
ESTABLISHED 17
SYN_RECV 45
CLOSING 6

根据《TCP/IP详解》中的TCP的建立和终止中有关"TCP的终止"的讲解

TCP的终止通过双方的四次握手实现。发起终止的一方执行主动关闭，响应的另一方执行被动关闭。

1. 发起方更改状态为FIN_WAIT_1，关闭应用程序进程，发出一个TCP的FIN段；
2. 接收方收到FIN段，返回一个带确认序号的ACK，同时向自己对应的进程发送一个文件结束符EOF，同时更改状态为CLOSE_WAIT，发起方接到ACK后状态更改为FIN_WAIT_2；
3. 接收方关闭应用程序进程，更改状态为LAST_ACK，并向对方发出一个TCP的FIN段；
4. 发起方接到FIN后状态更改为TIME_WAIT，并发出这个FIN的ACK确认。ACK发送成功后(2MSL内)双方TCP状态变为CLOSED。

我们不难看出上面的显示的结果的意思。根据TCP协议，主动发起关闭的一方，会进入TIME_WAIT状态(TCP实现必须可靠地终止连接的两个方向(全双工关闭))，持续2*MSL(Max Segment Lifetime)，缺省为240秒.

为什么 TIME_WAIT 状态需要保持 2MSL 这么长的时间？

TIME_WAIT 的等待时间为2MSL，即最大段生存时间.如果 TIME_WAIT 状态保持时间不足够长(比如小于2MSL)，第一个连接就正常终止了。第二个拥有相同相关五元组的连接出现(因为连接终止前发起的一方可能需要重发 ACK，所以停留在该状态的时间必须为MSL的2倍。)，而第一个连接的重复报文到达，干扰了第二个连接。TCP实现必须防止某个连接的重复报文在连接终止后出现，所以让TIME_WAIT态保持时间足够长(2MSL)，连接相应方向上的TCP报文要么完全响应完毕，要么被丢弃。建立第二个连接的时候，不会混淆。

注:MSL(最大分段生存期)指明TCP报文在Internet上最长生存时间，每个具体的TCP实现都必须选择一个确定的MSL值。RFC 1122建议是2分钟，但BSD传统实现采用了30秒。TIME_WAIT 状态最大保持时间是2 * MSL，也就是1-4分钟。

对apache的操作
HTTP协议1.1版规定default行为是Keep-Alive，也就是会重用TCP连接传输多个request/response.所以我打开 http中的keepalive On，发现TIME_WAIT就立刻少了下来.只有300的样子.总结一下.我认为有二个原因.

1.keepalive没有开，导致每次请求都要建立新的tcp连接，请求完成以后关闭，增加了很多time_wait的状态，没有重用，KeepAlive我认为它指的是保持连接活跃，类似于Mysql的永久连接。如果将KeepAlive设置为On，那么来自同一客户端的请求就不需要再一次连接，避免每次请求都要新建一个连接而加重服务器的负担。
2.然后keepalive在系统中本身的值很高.默认空闲连接 7200 秒（2 小时）内没有活动.才会断开.

我们开启KeepAlive：

KeepAlive On
MaxKeepAliveRequests 120
KeepAliveTimeout 15

这样每个连接可以发送100次请求，超时时间为15秒(如果第二次请求和第一次请求之间超过KeepAliveTimeOut的时间的话，第一次连接就会中断，再新建第二个连接)。

有关内核级别的keepalive和time_wait的优化调整

vi /etc/sysctl

net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_keepalive_time = 1800
net.ipv4.tcp_fin_timeout = 30
net.core.netdev_max_backlog =8096

修改完记的使用sysctl -p 让它生效

以上参数的注解
/proc/sys/net/ipv4/tcp_tw_reuse
该文件表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接。

/proc/sys/net/ipv4/tcp_tw_recycle
recyse是加速TIME-WAIT sockets回收

对 tcp_tw_reuse和tcp_tw_recycle的修改，可能会出现.warning, got duplicate tcp line warning, got BOGUS tcp line.上面这二个参数指的是存在这两个完全一样的TCP连接，这会发生在一个连接被迅速的断开并且重新连接的情况，而且使用的端口和地址相同。但基本上这样的事情不会发生，无论如何，使能上述设置会增加重现机会。这个提示不会有人和危害，而且也不会降低系统性能，目前正在进行工作

/proc/sys/net/ipv4/tcp_keepalive_time
表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时

/proc/sys/net/ipv4/tcp_fin_timeout 最佳值和BSD一样为30
fin_wait1状态是在发起端主动要求关闭tcp连接，并且主动发送fin以后，等待接收端回复ack时候的状态。对于本端断开的socket连接，TCP保持在FIN-WAIT-2状态的时间。对方可能会断开连接或一直不结束连接或不可预料的进程死亡。

/proc/sys/net/core/netdev_max_backlog
该文件指定了，在接口接收数据包的速率比内核处理这些包的速率快时，允许送到队列的数据包的最大数目

阅读(1657) | 评论(0) | 转发(0) |

上一篇：TIME_WAIT 状态介绍

下一篇：libnids 学习

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6