分类: LINUX
2013-01-11 16:51:19
最近有一次性能测试,通讯程序出现错误,表现为服务器处理速度明显降低,检查发现服务器的很多句柄出于TIME_WAIT状态,Justin这个流氓的自己承认测试用例写的有问题,在recv函数返回0后,没有close句柄。
我很郁闷google了一下如何处理这类错误,发现了SO_LINGER这个选项,发现这个选项可以避免端口的状态进入TIME_WAIT状态,大胆的进行了一下测试。发现在性能测试中,服务器的表现好了不少,暗爽。
//使用SO_LINGER,close后不进入TIME_WAIT状态
struct linger linger;
linger.l_onoff = 1;
linger.l_linger = 0;
setsockopt(serverSocket,
SOL_SOCKET, SO_LINGER,
(const char *) &linger,
sizeof(linger));
周3发版本,突然发现很多同事的都报告出现了一些错误,从客户端的日志反馈看,客户端在最后阶段往往没有收到几个我们的服务器的返回命令,于是立即想到了可能是这个选项导致了麻烦。注释这个选项后,果然大家的程序都正常了。
回头仔细读了一下《UNIX网络编程》卷1,才慢慢回想起来,TIME_WAIT的作用是保证在主动关闭端口后,保证数据让对端收到,Richard.Steven的原话是”TIME_WAIT是我们的朋友。”
由于我们客户端要和多个游戏服务器通讯,而且之间还有一些时序关系,所以我们不能使用这种让用户丢弃一部分数据的方式。对于TCP的细节感觉还是不熟悉,呵呵。
不能丢弃TIME_WAIT状态,但是让他缩短一些也是可以的。我们可以在l_linger参数上动点手脚,当l_onoff非0是。l_linge也非0的时候,套接口在TIME_WAIT上将拖延一段时间,l_linger秒,而不再是2MSL的超时[注]。我也打算继续试验一下。
【注】,根据《UNIX网络编程》卷1,需要注意的是,l_linger非0的解释在不同的平台可能不一样,BSD平台的实现是0.01s。