分类:
2008-10-15 16:45:11
交易处理性能评估
交易处理性能评估指标主要包括:
并发用户数。
并发用户数是负载压力的主要指标,体现了系统能够承受的并发性能。
重点得到两类并发用户数指标,一类是系统最佳性能的并发用户数,另一类是系统能够承受的最大并发用户数,这两类指标在某种情况下有可能重叠。
交易响应时间
该指标描述交易执行的快慢速度,这是用户最直接感受到的系统性能,也是故障定位迫切需要解决的问题。
交易通过率
指每秒钟能够成功执行的交易数,描述系统能够提供的“产量”,用户可以以此来评估系统的性能价格比。
吞吐量
每秒通过的字节数,以及通过的总字节数。此指标在很大程度上影响系统交易的响应时间,形成响应时间的“拐点”。
点击率
描述系统响应请求的快慢。
资源占用性能评估
资源占用主要涉及资源占用、资源占用、中间件资源占用等内容,下面分别论述。
操作系统资源占用
将服务器操作系统资源占用监控指标概括为以下几个方面:
CPU
磁盘管理
内存
区SWAP
进程
控制
文件系统
下面举例对某些指标进行分析。
Memory:内存使用情况可能是系统性能中最重要的因素。如果系统“页”频繁,说明内存不足。“页交换”是使用称为“页面”的单位,将固定大小的代码和数据块从RAM移动到磁盘的过程,其目的是为了释放内存空间。尽管某些页交换使 2000能够使用比实际更多的内存,也是可以接受的,但频繁的页交换将降低系统性能。减少页交换将显著提高系统响应速度。要监视内存不足的状况,从以下的对象计数器开始。
Available Mbytes:可用物理内存数。如果Available Mbytes的值很小(4MB或更小),则说明计算机上总的内存可能不足,或某程序没有释放内存。
Page/sec:表明由于硬件页面错误而从磁盘取出的页面数,或由于页面错误而从磁盘取出的页面数,或由于页面错误而写入磁盘以释放内存空间的页面数。一般如果Page/sec持续高于几百,那么应该进一步研究页交换活动。有可能需要增加内存,以减少换页的需求(可以把这个数字乘以4k就得到由此引起的硬盘数据流量)。Page/sec的值很大,不一定表明内存有问题,而可能是运行使用内存映射文件的程序所致。
Page read/sec:页的硬故障,Page/sec的子集,为了解析对内存的引用,必须读取页文件的次数。阈值为>5,越低越好。大数值表示磁盘读而不是缓存读。
由于过多的页交换要使用大量的硬盘空间,因此有可能导致页交换内存不足与页交换的磁盘瓶颈混淆。因此,在研究内存不足不太明显的页交换的原因时,必须跟踪如下的磁盘使用情况计数器和内存计数器:
Physical Disk\ %Disk Time
Physical Disk\Avg.Disk Queue Length。例如,包括Page read/sec和%Disk Time及Avg.Disk Queue Length。如果页面读取操作速率很低,同时%Disk Time和Avg.Disk Queue Length的值很高,则很可能有磁盘瓶颈。而如果队列长度增加的同时页面读取速率并未降低,则内存不足。要确定过多的页交换对磁盘活动的影响,请将Physical Disk\Avg.Disk sec/Transfer和Memory\pages/sec计数器的值增大数倍。如果这些计数器结果超过了0.1,那么页交换将花费10%以上的磁盘访问时间。如果长时间发生这种情况,那么可能需要更多的内存。
Page Faults/sec:每秒钟软性页面失效的数目(包括有些可以直接在内存中满足而有些需要从硬盘读取),而Page/sec只表明数据不能在指定内存中立即使用。
Cache Bytes:文件系统缓存(File System Cache),默认情况下为50%的可用物理内存。如果怀疑有内存泄露,请监视Memory\Available Bytes和Memory\Committed Bytes,以观察内存行为,并监视可能泄露内存进程Process\Private Bytes、Process\Working set和Process\Handle Count。如果怀疑是内核模式进程导致了泄露,则还应该监视Memory\Pool Nonpaged Bytes、Memory\Pool Nonpaged Allocs和Process(process_name)\Pool Nonpaged Bytes。
Pages per second:每秒钟检索的页数。该数字应少于每秒1页。
Page Faults/sec:将进程产生的页故障与系统产生的相比较,以判断这个进程对系统页故障产生的影响。
Work set:处理线程最近使用的内存页,反映了每一个进程使用的内存页的数量。如果服务器有足够的空闲内存,页就会被留在内存中,当自由内存少于一个特定的阈值时,页就会被清除内存。
Inetinfo:Private Bytes。此进程所分配的无法与进程共享的当前字节数量。如果系统性能随着时间而降低,则此计数器可以是内存泄漏的最佳指示器。
Processor:监视“处理器”和“系统”对象计数器可以提供关于处理器使用的有价值的信息,帮助决定是否存在瓶颈。
Processor Time:被处理器消耗的处理器时间数量。如果该值持续超过95%,表明瓶颈是CPU。可以考虑增加一个处理器或换一个更快的处理器。
User Time:表示耗费CPU的数据库操作,如排序,执行aggregate functions等。如果该值很高,可考虑增加索引,尽量使用简单的表联接、水平分割大表格等方法来降低该值。
Privileged Time:(CPU内核时间)是在特权模式下处理线程执行代码所花时间的百分比。如果该参数值和“Physical Disk”参数值一直很高,表明I/O有问题。可考虑更换更快的硬盘系统。另外设置“Tempdb in RAM”,头像“max async IO”,“ max lazy writeI/O”等措施都会降低该值。此外,跟踪计算机的服务器队列当前长度的Server Work Queus\Queue Length计数器会显示出处理器瓶颈。队列长度持续大于4,则表示可能出现处理器拥塞。此计数器是特定时间的值,而不是一段时间的平均值。
DPC Time:越低越好。在多算是器系统中,如果这个值大于50%并且“Processor:%Processor Time”非常高,加入一个网卡可能会提高性能,提供的网络已经不饱和。
Context Switch/sec:如果决定要增加线程字节池的大小,应该同时监视实例化inetinfo和dllhost进程这两个计数器。增加线程可能会增加上下文切换次数,这样性能不会上升,反而下降。如果多个实例的上下文切换值非常高,就应该减小线程字节池的大小。
[1]