二十世纪留给二十一世纪可靠性工程热点问题_可靠性论坛

昵称26041821 2015-06-10

展开全文

二十世纪留给二十一世纪可靠性工程热点问题收藏

一、对可靠性定义再认识
       可靠性通常被定义为：“产品在规定的条件下和规定的时间内，完成规定功能的能力”或定义为：“在规定的条件下和规定时间内所允许的故障数。”数学表达式为平均故障间隔时间(MTBF)。这就认为随机故障是不可避免的，也是可以接受的。这就导致由于设计原因引起的故障只要在允许数之内，往往不能追溯到最终根源。由于制造过程导致的故障，只要仍低于许可的故障数也就不被追究。为此，在国际上早在1995年对这传统的可靠性定义提出了质疑，在欧洲开始用无维修使用期(MFOP)取代原先的MTBF，故障率浴盆曲线分布规律也就被打破。由此，摒弃随机失效无法避免的旧观念。因此，当前国际上兴起的在可靠工程中推行失效物理方法的新潮流，设计出不存在随机失效的产品并非没有可能。同时，从故障修理转换到计划预防维修。这就需要产品研发设计人员必须清楚产品将会怎样发生故障，一般何时发生故障。
    要做到《无维修使用期》必须作好如下两项工作：
    1、改变可靠性设计思路
    以自下而上的可靠性设计方法，取代采用MTBF进行自上而下分配方法。当产品系统构思和设计完成之后，单元的设计师们应在设计前充分了解单元，模块的环境条件，可能发生故障的关键部及故障模式、机理、在设计时重点加以解决，且自下而上可能存在的可靠性问题都得到彻底解决，不仅可以将系统可靠性建立在踏实的基础上，而且可以确保系统的可靠性指标留有充分的余地。同时避免因设计后期发现问题再进行更改设计，不仅费时，且效果不好，重点可采取如下设计措施：

采用状态监控，故障诊断和故障预测设计；
引入容错和冗余设计
可重构性设计
动态设计
故障软化设计
环境防护设计
冗余设计
在任务能力不受影响下，留出可接受的降级水平设计等。

2、改变可靠性工程工作方法
为了达到产品无维修使用周期，必须把人力、精力集中于产品研发早期阶段，只有从项目开始第一天就强调可靠性，才能真正落实自下而上的可靠性设计方法。早期明了产品的核心单元和薄弱环节，开展失效物理方法工作，采取有效纠正与预防措施，才能做到“无维修使用期”。为此，应做如下工作：

失效物理分析、研究与应用
开展可靠性研制试验，及早暴露设计缺陷，采取有效纠正措施。
开展高加速应力试验(HAST)，暴露产品薄弱环节予以纠正
严格设计评审制度，消除设计隐患
制订合理预防维修计划并予以实施。

二、关于可靠性指标体系及其验证
当前电子产品普遍用平均故障间隔时间MTBF来表征。MTBF是产品基本可靠性指标。在可靠性预计时，以串联模型为基础，但用户最关心的是任务可靠性，即平均致命故障间隔时间MTBCF，在军品合同中都签的是MTBF，在进行可靠性指标验证试验时，都是以MTBF为依据。这出现了对故障的认识问题，一般都把可靠性验证试验中产品的存在状态简化为“二元状态”处理，即认为产品要么能完成规定功能，视为成功；要么不能完成规定功能，视为故障，非此即彼。故障统计也比较简单，要么为0，要么为1，对故障既不分类，也不加权，这在工程实施显然存在问题。大量事实证明，产品的不同故障造成的影响也不同。有的后果严重，损失很大(如雷达产品发射机的磁控管或行波管等)，有的后果轻微(如指示灯失效，显示器画面瞬时抖动等)，损失很小。如果把这些后果严重程度不同的故障，等同看待，客观上是不合理的，与实际情况也是不相符的。在产品可靠性验证与评价中，在确认故障，采用什么方法对故障数据进行处理，直接关系到产品的生存和发展。如果这个问题处理不当，就有可能把本来具有发展潜力的健壮设计，冗余设计扼杀在研制早期。因此，早在70年代美国在地面产品广泛地采用故障加权，但由于这种方法存在着主观的随意性和评估结果，不确定性，并且在理论上还存在一些具体问题难以解释。所以，在1980年美军标准 MIL－STD－785B颁布后，故障加权处理方法被取缔，虽然785B标准取缔了故障加权问题，但对产品可靠性验证中出现的故障“二元状态”处理不合理和存在问题如何解决?所以，以美国陆军为首的一些部门和专家研究所得的验证方案，就是把产品可靠性指标细化分解。分别验证，如把地面武器装备任务状态区分以下五种加以考核。

能圆满完成任务(Missionworthy)
在规定时间内排除故障后能完成任务(Missionworthy)
能完成任务，但性能降低(Missionworthy impaired)
不能完成任务(Non－missionworthy)
不能完成任务，失去机动能力(Non－mission－worthy)

把可靠性指标分解，表面看来是合理的，但又如何将这些指标进行分配和预计及如何进行可靠性设计，问题并非有些文章说的那么简单，所以美军于1986年10 月17日发布的MIL－STD－7810《工程研制鉴定和生产可靠性试验》正式文本中，首次提出在可靠性验证中按后果严重程度把发生故障区分为：致命故障，严重故障和轻度故障三类，这就意味着根据故障严重程度可以进行加权处理，美军MI坦克就是这样做的。
    我们国家有标准可查的就有近20种门类产品对故障进行加权处理，在军品方方面面《地面雷达可靠性试验方法》率先提出，在民品原邮电部的 YD282－1982《邮电通信设备可靠性通用试验方法》，率先提出故障加权问题，尽管有些门类产品明文中没有提出故障加权问题，但在实际试验中也在进行故障加权方案，只不过各自故障加权权数不同而已。目前对故障加权有争议，该如何对待此问题这是二十世纪留给二十一世纪应尽快解决的问题。
        三、改变传统只重视硬件可靠性设计思路加强软件可靠性设计
        随着社会日益信息化，社会的日常运行越来越依赖于软件的电子系统，当前电子系统(或设备)软件功能较硬件功能占系统功能比例越来越高，通讯产品可占50% 以上。但目前人们只重视硬件可靠性，而对软件可靠性很“漠然”，虽然软件故障频繁发生，危害很大，但在开展可靠性工程工作时，对软件可靠性提及甚少，原因有二：一是开展软件可靠性工作较晚。在国际上虽然在二十世纪六十年代后期就已开始，但软件可靠性工程概念在八十年代末提出，时至今日软件的有关技术还不够成熟，还有许多问题有待研究，在我国八十年代才有极小数专家从事分散、零星的研究，进入九十年代软件可靠性工程一词才出现，目前正处于软件可靠性理论研究向工程应用过渡时期，二十一世纪要解决的是如何像硬件可靠性技术一样，软件可靠性工程技术在产品研发中被广泛应用。二是软件可靠性技术较为复杂，研究和应用难度较大，其中有如下几个方面：
    A．可靠性模型非指数分布，一般属于正态分布或威布尔分布，可靠性数字模型建立难度很大；
    B．可靠性指标确定多样化；
    C．标的实现、测试、评估和验证、模式不确定性；
    D．电子设备的软件可靠性很难与硬件可靠性剥离。有些软件故障是由硬件设计缺隐和故障所引发的。
    开展软件可靠性工程主要有以下工作：
    A．建立可靠性模型；
    B．确定系统软件可靠性指标；
    C．进行软件可靠性指标分配；
    D．进行可靠性指标预计；
    E．软件可靠性设计；

防错设计
容错设计
标错设计
纠错设计
故障恢复设计等

F．软件可靠性分析：

软件失效模式影响分析(SFMEA)
软件故障树分析(SFTA)
Pertri网分析法

G．软件可靠性验证。软件可靠性一般都是通过软件可靠性测试，评估已达到软件可靠性水平，来加以验证。国内外有些专家认为由于软件故障过程的随机性和软件验收测试期间不对软件进行修改，因此可以认为软件可靠性服从指数分布，在这情况下，就可参考GJB899《可靠性鉴定与验收试验》来确定软件可靠性验收准则。

四、改变传统的电子产品结构设计观念实施集成化结构设计
传统的电子产品结构设计，按标准进行结构设计，能将模块或插件紧密的装进框架内，能缓冲减振即可，但伴随科学技术发展，这是远远不够的。为了提高产品可靠性，结构设计应改变这种传统的结构设计观念和做法，而应实施集成化结构设计，所谓集成化结构设计如上公式所示：
电子产品结构设计＝机械件可靠性设计＋热设计＋EMC设计＋维修性设计＋三防设计上述诸设计因素中，不是简单的相加，因为它们既有统一一面，也有矛盾一面，需要进行权衡优化设计