导读 1)可靠性不能独立存在? 2)相比可靠性,可用性是个假指标? 3)可靠性与高效运行无法兼得? 可靠性与前提 1)定义 ①系统或组件在规定条件下执行其必须功能一个指定时间段的能力。 从这个定义来看还是较难以看出其本质。 ②溯源到美军可靠性设计手册,可靠性原本就是在指定条件指定时间内能可靠工作的概率。 有的时候指定条件包含了指定时间段,但大多时候均不包含指定时间而仅指外部的工作环境条件。 2)可靠性计算: ①串联单元/子系统; 在相互独立/不相干/相关性可忽略的单元/子系统构成的大系统内,任意一个单元或子系统故障则系统故障,该系统即为串联系统。 R=R1xR2x..xRn; 式中: ②并联单元/子系统; 在相互独立/不相干/相关性可忽略的单元/子系统构成的大系统内,任意一个单元或子系统无故障则系统无故障,该系统即为并联系统。 F=F1xF2x..xFn; R=1-F=1-(1-R1)x(1-R2)x..x(1-Rn); 式中: ③串并联关系; 从计算公式和定义来看,在相互独立/不相干/相关性可忽略的单元/子系统构成的大系统内: 可靠性的并联相当于失效率/故障率的串联; 可靠性的串联相当于失效率/故障率的并联; 这些原则与电压电流、流体中的压力降与流量的关系都近乎一致。 ④非独立单元/子系统; 一般将非独立的元件尽量放入一个单元/子系统,当两个单元/子系统可靠性上非独立时, 串联时:R=C12xR1xR2 C12单元/子系统12同时可靠的相关系数; 并联时:F=D12xF1xF2 D12单元/子系统12同时失效的相关系数; 3)可靠性前提: ①设计的工作环境 对于电子信息等ICT设备来说,其运行可靠性往往是指其内的总体零部件与系统的可靠性,前提是所有外部环境正常,比如供电、外部带宽、外部冷却等。 对于基础设施等其他任何单一系统或者对象,其可靠性往往也仅是指在外部环境正常的前提下,其内部无故障可靠运行的概率。 当然由于ICT设备的外部供电、带宽、冷却等正好是由基础设施来提供,那么整个数据中心的可靠性往往就覆盖了不因整个数据中心内任意零部件、设备、系统、路径故障而保持ICT设备正常运转的可靠性。 当然如果更深一步研究,附加外部市政供电、供水、运营商通讯等外部无故障运行的概率,则能覆盖近乎全部可能导致ICT非正常工作的因数。但是往往外部的可靠性也是有设计的工作环境的,比如地震、战争、洪水、泥石流等罕见灾害,往往不在正常外部可靠性覆盖范围内。 ②指定时间 数据中心可靠性分析中经常会碰到以年为单位,一年内的可靠性是指一年内ICT设备不发生数据中心内生故障的概率。这里需要注意的是,其需要附加了以往年度既成事实发生的概率。比如显然一个数据中心运行七八年后,其可靠性可能会因为管理不及时而显著下降,当然也可能因为设备寿命管理考虑高效和成本因数在失效性未显著下降之前,即进行更新换代或者换最新一代成熟产品,而导致年度可靠性随着时间反而出现了提升,形成了V字型趋势。 可靠性与可用性 1)可用性定义: 可用性的计算如下: 可用性= MTTF /(MTTF MTTR)= MTTF / MTBF 式中: MTTF:= 平均无故障时间 ( Mean Time To Failure ) MTTR:= 平均维修时间 ( Mean Time To Repair ) MTBF:= 平均故障间隔时间( Mean Time Between Failure ) 2)可用性设计与计算: ①从可用性的计算公式来看,似乎也是个小于1的数值。 ②但是数据中心经过设计可以实现所有零部件、路径均有冗余,那么也就不存在系统级的MTTR,故障设备维护时,其冗余设备/路径直接开始起作用,故障设备的MTTR对系统运行不存在任何影响,没有影响到数据中心的可用性,此种情况下可用性可认为=1。 ③常规A级及Tier III-Tier IV级机房在科学设计和实施的前提下,其基础设施可用性均达到100%。 ④一个A级数据中心投运后第一年没有发生宕机事故,我们说其第一年可用性为100%。接下来4年都保持无事故运行,在第六年发生了宕机事故,5h后恢复了运转。 那么第六年的可用性是1-5/8760=99.94%。 前六年的可用性是1-5/8760/6=99.99% 3)可靠性与可用性: ①从历史与统计的角度来看,可靠性与可用性在数值上相等。 ②但是在设计和预测角度来看,延续上例,第六年和第五年的设备/系统没有显著变化,其可用性设计依然是100%,只是实际出现了预料之外的状态。而可靠性虽然前五年结果是100%,但是在建设刚完成时,其设计可靠性却可能只是99.9%。 ③根据前文《[基础]:MTBF与可靠性》,我们根据MTBF及其分布,也同样可以计算出可靠性,但是其与可用性完全是两个不同的概念和数值。 某空调控制系统,其可靠性分布满足 R2(t)=1-F2(t)=e^-λt,MTBF=10万h,MTTR=2h(现场有备件,直接插拔更换) 那么该空调控制系统,无故障运行10万h的概率,也就是10万h内的控制系统可靠性是R(10万h)=e^-1=36.79% 而可用性=(100000-2)/100000=99.998% 可靠性与高效运行 往往大部分人会凭直觉认为可靠性与高效运行是一对矛盾,如果想追求高可靠性,肯定会意味着更多冗余以及更低负载率、更低效率。 我们在前文《【科普】高效与可靠》曾经阐述过,真的高效不会影响可靠性甚至会对可靠性带来显著提升,而只有假的(不成熟、不稳定、不可靠)高效才可能会带来可靠性的损失。 而靠冗余设备堆砌的假的可靠可能会带来高效的损失,但是真正有机结合按需设计按需冗余的可靠从来都不会拒绝高效的设备和系统,因为他们能够更有效的达成目的,满足需求,从而简化系统的架构,精简繁琐的保护。 主编寄语 感谢各位新老朋友的持续关注,愿皆离苦得乐,今日缘者心语: 如果你连工作挣钱都要别人开导你,都要人盯着、看着、哄着、鼓励着,劝你还是别干了,你就应该穷。 今天开始白皮书版会刊预订价格为24元,欢迎赞赏后留言快递地址及联系人。(以后每发布一篇预订价格涨一元O(∩_∩)O哈哈~) 相关推荐 近期文章 |
|