分享

华为质量与可靠性:先进的方法

 郑公书馆298 2017-03-26



以特性为核心的华为可靠性设计


随着电信网络和信息技术的发展,人们对通信产品的要求不断提高,对产品的可靠性也愈发敏感。事故少、基本杜绝特大事故、业务中断时间短、返修率低,是通信产品高可靠性的主要表现。在实现高可靠性的过程中,可靠性设计无疑起到了决定性作用。

 

以往产品开展的可靠性工作,多是可靠性工程师提供故障模式及影响分析(FMEA)、事件树分析(ETA)、降额、可靠性预计等工程方法和设计原则,由产品设计师完成设计;情况好一些的,可靠性工程师还承担FMEA、可靠性预计、可靠性试验设计等工作。但由于这些工作仍是对产品设计方案的'分析'或'优化',是站在旁边“参与”,难免出现可靠性工作与产品设计的“两张皮”现象。实践中,FC-DFR方法的应用解决了上述问题,实现了产品可靠性竞争力的快速提高。

 

一、以特性为核心的可靠性设计

 

以特性为核心的可靠性设计(Feature CenteredDesign-For-Reliability,FC-DFR)其核心理念是聚焦能为客户带来价值、解决客户痛点的产品可靠性关键特性,如容灾、过载控制、软件升级不中断业务、故障诊断定位等,开展产品可靠性设计工作;由专职特性设计师(机可靠性工程师)完成关键可靠性特性的设计,包括需求与规格定义、设计方案、设计原型等。

 

FC-DFR主要涵盖可靠性需求分析、可靠性建模仿真、系统级FMEA、可靠性关键特性设计(含特性设计方案及原型验证)等活动。其中,可靠性需求分析需要考虑客户对于产品可靠性的各种需求,如可用度(Availability)、业务年中断时间(Downtime)、返修率(FFR)、重启时间、软件升级业务中断时间等定量需求,以及设备无单点故障、单板或端口支持冗余、设备通道检测、远程故障恢复、支持容灾此类定性需求;在明确定义每个需求对应的具体工作场景、故障场景的基础上,再将各种需求逐步分解为产品各功能模块的设计规格。可靠性建模仿真则是运用数学模型描述产品各个模块、考虑失效概率及失效影响,继而计算出整个系统的可靠性。常用的可靠性框图(BDR)模型,如串联、并联、N中取K等,足以满足粗略预计、分配系统可靠性指标的要求;但评价不同设计方案的可靠性差异,如增加某些故障检测方案,采取RBD与马尔可夫模型相结合的建模方法更为适合。

 

对于通信设备可靠性分析来说,在架构设计、备选设计方案可靠性对比分析时,可靠性建模仿真是一种有效手段;而在细粒度的可靠性指标分配(如将可用度指标分解分配到单个元器件的可靠性指标要求)时作用不大。系统级FMEA是通过系统列出各功能单元可能的故障模式,分析故障模式发生时对业务的最终影响,并对如何进行故障检测(包括检测周期、检测深度等)、故障恢复(如倒换、复位等)、告警和故障记录作进一步分析。系统级FMEA常以功能单元为对象,但有时会将业务流或数据流作为分析对象。

 

可靠性建模仿真、系统级FMEA作为支撑需求分解的定量、定性分析手段,在实践总得到了很好应用,不仅有效增强了可靠性需求分解分配过程的系统性,同时也为可靠性关键特性的设计奠定了重要基础。

 

二、可靠性关键特性设计

 

在FC-DFR数据流中,可靠性需求、可靠性关键特性设计、故障注入(FIT)是3个主要活动;可靠性建模仿真、FMEA作为分析手段,支撑这些活动的有效落实。

 

通常,除产品自身硬件、软件、数据的故障外,诸如升级、补丁、扩容、参数配置、巡检等计划性维护活动都可能引发产品现场运行中的事故;并且从实际情况来看,此类事故往往占据较大比重。因此在FC-DFR数据流中,还应当分析计划性活动的各种异常场景对产品业务可能产生的影响,并考虑如何避免人因差错。

可靠性关键特性设计,通常包括需求、场景分析、规格、设计原理、总体方案、详细方案、设计原型几个部分;不同特性的设计原理不同,需根据实践中的具体情况作具体分析。

 

小结

 

在当前市场激烈竞争、新技术层出不穷、产品可靠性日益重要的环境下,FC-DFR能够围绕可靠性关键特性开展产品可靠性设计。作为专职的产品可靠性关键特性设计师,可靠性工程师熟练掌握可靠性建模仿真、系统级FMEA等工程方法,实践并积累设计能力,快速提升产品可靠性竞争力。希望这种模式能为可靠性工程在企业的成功应用摸索出一条道路,共同努力是“可靠”成为客户对我国产品的普遍认知。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多