分析了单机和双机热备计算机联锁系统的工作模式,建立了相应的故障安全模型并分析了故障检测覆盖率对双机热备计算机联锁系统的可靠性与安全性的影响.指出了减小故障检测时间、提高故障检测率是提高双机热备系统可靠性与安全性的重要技术措施.当故障检测覆盖率很高时,双机热备系统与单机系统的不安全度在同一数量级上.
关键词 故障检测覆盖率 可靠性 安全性 故障安全系统 平均故障间隔时间 危险比
分类号 TP273
Camputer-based Interlocking
System with Dual Computers
Quantity Analysis of Reliability and Security in the
Cao Jixiang Zheng Junjie
(College of Electronics and Information Engineering, Northern Jiaotong University, Beijing 100044)
AbstractThis paper analyzes the work mode of computer-based interlocking system with single computer and dual computers, establishes corresponding failure-safe model, and analyzes the influence of failure checking cover ratio to the reliability and security of dual computers system.This paper also points out that reducing failure checking time and increasing failure checking cover ratio are the important technical measures to improve the reliability and security of dual computers system. When the failure checking cover ration is very high, the insecurity of dual computers as well as the single computer are all in the same quantity degree.
Key wordsfailure checking cover ratio reliability security failure-safe system average failure interval time danger ratio
铁路信号控制系统直接涉及生命财产安全,故障机联锁系统必然是故障安全系统.由于电子技术和计算机容错技术的发展,原来只用于铁路信号控制系统的故障安全技术的应用范围不断扩大,故障安全技术已成为保障人身安全和减小财产损失的重要系统设计原则.故障安全技术和用它构成的故障安全系统已成为当今电子技术领域的一个重要研究课题.
1 故障安全系统的可靠性、安全性评价指标
如果一个系统其内部发生任何故障时,系统都能给出一个将被控对象置于预定的安全侧的输出值,则称该系统为故障安全系统.实际上,绝对故障安全系统是不存在的,只要某一系统的安全性达到某一规定的标准(指标),就可以认为系统是故障安全的.设故障安全系统工作时有三种状态:
(1)正常工作状态(W) 系统能正常完成规定的功能;
(2)故障安全状态(F) 系统出现故障时没有给出导致灾难性后果的输出值,即故障的后果是安全的;
(3)非故障安全状态(U) 系统内部出现故障,故障后果使系统给出危险侧输出,其后果是灾难性的.
1.1 可靠性指标
(1)系统的可靠度R(t) 系统在规定的条件下和规定的时间内,完成规定功能的概率称为系统的可靠度.系统的可靠度通常随时间增加而减小.
(2)平均无故障间隔时间tMTBF 系指系统运行至发生第一次故障的期望时间
(3)有效度A(t) 系统在规定的条件下使用时,在任意时刻完成规定功能的概率,它表示可修系统的有效性.可修系统有正常工作的完好状态和不能正常工作的故障状态.可靠性要求系统不易出故障,而维修性则要求系统故障后要尽快修复,两者结合起来,用一个统一的尺度来衡量与评价系统在全部使用过程中能有效工作的程度,即系统的有效性.
(4)平均修复时间tMTTR 系指可修系统修复时间的数学期望时间
式中 g(t)为维修密度函数.
1.2 安全性指标
设故障安全系统处于各种状态的概率:P0(t)为系统处于正常工作状态的概率;P1(t)为系统处于故障安全状态的概率;P2(t)为系统处于非故障安全状态的概率.
(1)系统的安全度S(t) 系统在规定时间内,按规定条件不发生危险侧输出的概率
S(t)=P0(t)=1-(P1(t)+P2(t))
(2)系统的不安全度U(t) 系统在规定时间内,按规定条件产生危险侧输出的概率
U(t)=1-S(t)
(3)系统的故障安全度D(t) 当系统发生故障时,系统处于非故障安全的概率,也称危险比
当系统长期工作时,也可用系统稳态安全性指标来衡量系统的安全性,即当t趋近于无穷时,若S(t)、U(t)、D(t)的极限存在,则分别称之为系统稳态安全度、稳态不安全度和稳态故障安全度.
2 故障检测覆盖率对系统的影响
故障检测是确定系统有无故障,故障的定位称之为故障诊断.故障检测的有效程度用故障检测覆盖率来衡量.故障检测覆盖率指系统中任一故障被检测出来的概率.实用中常用能够被检测到的故障类别的百分比来说明.故障诊断的有效程度用故障诊断分辨率来徇.故障诊断分辨率指诊断故障部件的大小.过高的故障诊断分辨率是不必要的.对于微机联锁系统一般只要分辨出故障发生在哪一块模板就可达到通常的用户维修水平.
2.1 对可靠性的影响
设系统是一个冗余系统.系统故障时冗余部件是否被有效利用,在很大程度上依赖于故障检测覆盖率.假使故障检测是完善的,即故障检测覆盖率接近于1,系统能及时诊断出所出现的故障并正确处理.从而系统能够有效利用冗余部件,完成系统的重组和重构,提高系统的可靠性.如果故障检测是极不完善的,故障检测覆盖率远小于1,系统将无法有效地利用冗余部件,因为这时系统是无法辨别部件是否故障,无法进行故障部件的切除和替换,采用冗余提高系统可靠性的效果将降低.
2.2 对安全性的影响
在自动控制和其他许多系统中,为实现故障安全原则,除了使用一些特殊的技术措施外,还经常采用容错技术来构成故障安全系统.容错系统能够容忍和屏蔽一定数量的故障,可提高系统的可靠性和安全性.
故障安全系统中的故障,根据它是否可以被检测出来,分为可测故障和不可测故障两种.如果故障可以被检测出来,总可以采取相应的措施来加以防范,避免由于故障导致系统给出危险侧输出.因此系统内部出现故障用能被及时检测出来进行处理的情况下,系统可能会给出危险输出.现有的故障检测技术,一般对单故障都有很高的检测覆盖率,而对双重或多重故障的检测覆盖率则较低.多重故障发生的概率很低,因此影响安全性故障的主要是双重故障.
3 双机热备系统的故障安全模型
双机热备系统是当前经常采用的一种容错冗余系统.在故障安全系统中,采用双机热备系统的目的是为提高系统整体的可靠性,系统安全性主要依靠单机中采用故障安全技术措施来实现.但采用双机热备系统后,系统的安全度较单机的要低.
3.1 双机热备
双机热备是指由两个独立的模块组成的系统.两个独立模块都能独立完成规定的同样功能.双机热备系统中,每一个模块相当于一个单机.正常工作时,两个模块都加电工作,不过其中只有一个模块的输出能经过切换去控制被控对象,即其输出是有效的,另一模块的输出是无效的.每个模块都有自检测自诊断功能,当模块发现自身出现故障时,就给出控制信号,驱使切换开关进行适当切换并给出故障报警和提示.双机热备系统在工作时有如下几种工作模式:①一个模块工作,另一模块热备,两模块都无故障;②一个模块工作,另一模块待修,系统可以完成规定功能;③两个模块都故障,系统失效.当系统出现不可测故障时,可能会给出危险输出.我们保守地认为双机热备系统工作模块出现不可测故障时一定会给出危险输出,系统处于非故障安全状态.
3.2 故障安全模型
先作如下简化和假定:①双机热备系统由两个独立的完全相同的模块(单机0组成.切换开关是安全可靠的,不考虑系统维修.②只考虑永久性故障,瞬时故障由模块的程序卷回和时间冗余等技术屏蔽.③非常保守地认为,模块一旦出现不可测故障就不可逆转,即会引起危险输出.④单机的故障检测覆盖率为c,模块的失效率为λ且大于零.⑤系统满足马尔可失过程的条件,可按马尔可失过程来处理.
设用X(t)来表示双机热备系统的状态,则:
然后,可得到双机热备的状态转移图,见图1.
图1 双机热备系统状态转移图
对状态转移图的解释如下:
(1)状态0→状态1 说明系统工作模块或热备模块出现可测故障,系统变为一模块工作,另一模块出现可测故障的单机工作方式;
(2)状态1→状态2 表示单机工作的模块出现故障且故障被检测出来,系统处于故障安全状态;
(3)状态1→状态4 说明单机工作的模块出现不可测故障,系统处于非故障安全状态;
(4)状态0→状态4 此时热备模块正常,但工作模块出现不可测故障无法进行切换,系统处于非故障安全状态;
(5)状态0→状态3 这时热备模块出现不可测故障,工作模块正常,系统仍可工作;
(6)这时影响双机热备系统安全性关键之所在,它说明当热备模块已出现了不可测故障时,只要工作模块一旦出现不可测或可测故障都将会使系统进入非故障安全状态.
根据双机热备系统的状态转移图,列出如下微分方程式:
如对上式进行拉式变换,并代入初始条件P0(t)=1,P1(0)=P2(0)=P3(0)=P4(0)=0,则得
解以上方程组,然后进行拉式反变换,可求出双机热备系统处于各种状态时的概率,
3.3 双机热备系统的可靠度与安全度
(1)可靠度 R2(t)=P0(t)+P1(t)+P3(t)=e-+ce-(1-e-).
λtλtλt (2)安全度 S2(t)=1-P4(t)=1-(1-c)(1-e-)λt[1+(1-e-)cλt].
(3)不安全度 U2(t)=(1-c)(1-e-)λt[1+(1-e-)cλt].
(4)稳定安全度 S2=c2.
(5)稳定不安全度 U2=1-c2.
3.4 故障安全覆盖率对系统的影响
如果故障检测是理想的,当c=1,则R2(t)=2e--e-2,λtλt这时双机热备系统的可靠度等于两模块并联系统的可靠度.当c=0,则R2(t)=e-.λt上述表明由于工作模块出现故障就会导致系统失效,所以双机热备系统的可靠度等于一个模块的可靠度.当0 为了便于研究,我们采用不安全度来分析系统的安全性与故障检测覆盖率的关系.根据单机系统的不安全度与双机热备系统的不安全度相比较:
单机系统的不安全度为 U1(t)=1-S1(t)=(1-c)(1-e[sup]λt 双机热备系统的不安全度为 U2(t)=(1-c)(1-e-)λt[1+(1-e-)cλt].
可见,双机热备系统的不安全度大于单机系统的不安全度.两者不安全度的比为[/sup]);
可见,当单机的可靠度接近于1时,双机热备的不安全度接近于单机的不安全度.因0 综上所述,双机热备系统的不安全度要大于单机系统的不安全度.可见,采用了双机热备虽提高了系统的可靠度但却降低了系统的安全性.在稳态情况下,当c=0.5时,双机热备系统的稳态安全度下降到0.25.故障安全系统为了提高其安全性和可靠性,采用了较完备的故障检测技术和安全输出和输入接口技术.单故障都可以被检测出来,而且单一故障一般不会造成系统的危险输出.不可检测的多重故障出现的概率很低,对系统的危害性最大的当属双重故障.综上所述,考虑到故障检测覆盖率的影响时,可以得到以下结论:①双机热备系统的可靠度大于单机的可靠度但小于两模块并联的可靠度;②双机热备系统的安全度略低于单机系统的安全度;③故障检测比较完善,检测时间又较少时,故障能被及时检出,双机热备系统的安全度接近于单机系统的安全度,它们同处一个数量级上;④热备模块出现不可测故障时,工作机出现可测故障就会使系统进入非故障安全状态,这是使双机热备系统安全性下降的主要原因.
鉴于热备模块出现不可测故障后,也有再次出现故障向可测性故障转移的可能性.另外,在考虑维修时,双机系统的可用度提高了,这些因素都有利于提高双机热备系统的安全度.
4 结论
对于故障检测比较完备的系统而言,双机热备系统的安全度不会大幅度下降.可采用以下技术措施来提高双机热备系统的安全度:
(1)减少故障检测间隔时间,及时检出故障;
(2)尽量利用较完备的故障检测算法,提高检测覆盖率;
(3)提高单机的可靠性也是提高双机热备系统安全性的有效措施;
(4)改进系统软硬件结构,使不可测故障引起的危险性输出的可能性尽可能地减小.
参考文献
1 赵志熙.计算机联锁系统综述.铁道通信信号,1990,(9):1;(10):5
2 赵志熙.铁路信号安全性技术(一).铁道通信信号,1990,(4):26
3 赵志熙.铁路信号安全性技术(二).铁道通信信号,1990,(5):24
4 吴芳美.故障-安全接口研究.上海铁道大学学报,1993,14(1):151~162
5 赵志熙.微机联锁系统技术.北京:中国铁道出版社,1995.199~204
信息来源:中国铁路第一坛 - 中国铁道论坛
原文地址:
阅读(881) | 评论(0) | 转发(0) |