1、计算机可靠性介绍
计算机的硬件故障通常都是由于元器件失效造成的。元器件的可靠性分为三个阶段:开始阶段元器件处于不稳定阶段失效率比较高、第二阶段是正常工作阶段,失效率最低、第三阶段元器件开始老化,失效率就又开始提高。又称为“浴盆曲线”。
计算机的可靠性:从 开始运行t=0到某时刻t这个时间段内,可以正常运行的概率。
失效率:单位时间内失效的元件数与元件总数的比例。
可靠性与失效率的关系:
平均无故障时间(MTBF):两次故障之间正常工作的时间平均值。
公式:MTBF=1/λ
平均修复时间(MRBF):表示计算机的可维护性,指从故障发生到机器 修复的平均时间。
公式:A=MTBF/(MTBF+MTRF)
RAS:可靠性R、可用性A、可维修性S三个指标来衡量计算机系统。
2、计算机可靠性模型
2.1 串联系统
当一个系统有N个子系统组成,当所有的子系统都能正常工作才能正常工作。这种系统成为串联系统。
系统的可靠性R度量值=R1*R2*...Rn
失效率
λ=λ1+λ2+λ3+..+λn
2.2 并联系统
当一个系统有N个子系统组成,只要有一个子系统可以正常工作,系统就能正常工作,这样的系统成为并联系统。
系统的可靠性R度量值=1-(1-R1)*(1-R2)*(1-R3)...(1-Rn)
系统失效率公示
在并联系统中只有一个子系统是有效的,其余n-1个子系统成为冗余子系统。
2.3 N模冗余系统
N模冗余系统由N个(N=2n+1)相同的子系统和一个表决器组成,表决器把N个子系统中占多数相同结果的输出作为系统输出。
3、提高系统可靠性方法
1、提高元器件质量、改进加工工艺和工艺结构。
2、发展容错技术,使得计算机硬件有故障的情况下,仍然可以运行。