无
分类: Java
2012-04-28 15:13:46
最近在做一个保持手机长在线的业务,设计要求支持手机长连接100万上,当前我们只做了一个单机版本,未开发集群版本。
硬件:2U * 8C * 2.4G, 16G MEM, Raid5。
软件:操作系统是LINUX RHEL 5.5 64x,JDK1.6_30 64x,还有MySQL 5.5 64x。
程序使用JAVA开发,用了Netty NIO框架。大家知道,一个JVM启动的线程数有限,也就几万,如果用传统的IO,一个连接要启动两个线程,一读一写,50万连接就是100万线程,这与JAVA虚拟机的能力相差甚远。
在测试中,服务器保持连接数与JVM内存大小直接相关,内存越大,保持连接数相应增大。在服务器启动是还增加了一些并行收集等参数。我们最后达到50万长连接时JVM的Xmx为12G。
因为我们的业务需要保存一些业务信息,所以会多费些内存,如果不做业务,可能连接数还能增加。但肯定不可能无限增加。
系统在建连接阶段CPU不高,在连接保持上几乎不费CPU,主要费内存。
我们的客户端是用ERL开发的,每台机器建63000个连接到服务器,需要8台以上的客户端测试机。因为对ERL不是很熟,所以单台机器使用虚网卡建立65535以上连接的方法一直没成功,导致加压机需要得太多。
总体测试情况在预料之内,但也有一点非常重要。当JVM使用内存大于8G时,一次FULL GC需要8秒时间,差不多1G一秒。有些时候FULL GC竞然花费了10秒以上。大家知道,这段时间服务完全是暂停的。当然,我们可以通过设置最长垃圾回收时间这个JVM参数来缩短GC时JVM暂停时间,但因为我配置的是吞吐最优先,所以FULL GC会做全垃圾回收。但这个时间还是大大超出了我的预计。