本篇属于汽车功能安全专题系列第08篇内容,主要来聊汽车功能安全硬件开发关于硬件架构度量及随机失效评估相关的内容。 在硬件安全开发阶段,由于硬件随机失效的存在,除按照传统V模型,对硬件相关的安全需求,安全架构及实现等进行开发外,还需对硬件随机失效进行概率化度量,包括对硬件架构的度量和硬件随机失效的评估这两大方面,它们二者从不同的角度通过概率化分析手段,确保硬件安全机制对系统单独类型和整体随机硬件失效的有效性及导致违背安全目标的残余风险足够低。 针对硬件概率化度量,主要包括以下内容:
鉴于内容较多,今天我们先聊前四部分,主要是硬件随机失效概率化度量相关的背景及容易误解的知识,具体实施和计算,即FMEDA我们留在下篇继续。 01 硬件随机故障基本类型 为方便理解,在具体谈硬件概率化度量前,我们先来看看硬件随机失效的基本模式: 由上图可知,ISO 26262将硬件随机故障失效模式,按照发生故障的数目,是否可以被探测以及感知进行了分类,其主要特点总结如下: 单点故障 ─ 单点故障可直接导致违背安全目标。 残余故障 ─ 残余故障可直接导致违背安全目标。 潜在故障 ─ 系统保持正常工作至所有独立故障发生。 可探测的故障 可感知的故障 双点故障 ─ 某故障和其对应的安全机制失效属于常见的双点故障。 安全故障 ─ 三点及以上的故障通常也被认为是安全故障(一般发生概率较低且所对应的安全机制过于复杂,所以归类为安全故障)。 更多详细介绍可以直接参考ISO 26262-10:2018第8部分。 02 硬件随机失效率 为了对硬件随机失效进行量化,引入了硬件随机失效率λ,其定义为: 失效率是指元器件在单位时间内发生失效的概率,记为λ,一般以小时(h)作为时间计量单位,所以其单位为: 次/h。 考虑到电子元器件失效率极低,所以一般采用FIT (Failures In Time) 来计量,1 FIT=1次失效/10^9 h。 例如: 某电阻失效率λ=2 FIT,即该电阻在10^9 h内存在两次失效。 不知道朋友们有没有想过,既然电子元器件的失效和自身老化相关,那它的失效率为什么是常数,而不是随时间变化的? 为了回答这个问题,我们先来看看电子元器件的生命周期特性。电子元器件的生命周期非常符合浴盆曲线(Bathtub Curve),如下图所示: 有图可知,电子元器件整个生命周期大致可以分为三个阶段:
因此,在ISO 26262中查到的是恒定值,而不是一个时间函数。 那么怎么获取电子元器件的失效率呢?一般来讲可以通过以下三种方式获得: 1 历史数据: 根据已有或相似产品,预估新产品的失效率,但全新的产品没有历史数据可参考。 2 测试: 属于最真实和最准确的数据来源。但测试周期长,成本高。 3 行业公认的标准: 根据SN29500, IEC 62380等行业公认的标准和指南中提供的可靠性预估算法计算。 03 硬件的架构度量 硬件架构的度量, 用于评估相关项架构应对单独类型的随机硬件失效的有效性。由于硬件随机故障中,单点故障、残余故障和潜伏故障会直接导致安全目标的违背或实现有显著影响,所以硬件架构概率度量包含以下两个方面:
1 单点故障度量反映硬件安全机制或设计对单点和残余故障的覆盖是否足够。 2 高单点故障度量值表示相关项硬件单点和残余故障所占比例低,系统可靠性高。 计算公式: 即: SPFM=1 - (单点故障总和+残余故障总和) / (所有和安全相关失效率总和) ─ λSPF: 单点故障失效率,λRF,est: 估算的残余故障的失效率,λDC,RF: 残余故障的诊断覆盖率。
1 潜伏故障度量反映硬件安全机制和设计对潜伏故障的覆盖是否足够。 2 高潜伏故障度量值表示硬件潜伏故障所占比例低,系统可靠性高。 计算公式: 即: LFM=1 - (所有潜伏故障总和) / (所有和安全相关失效率总和 - 单点故障总和 - 残余故障总和) ─ λMPF,L,est: 潜伏故障的估算的失效率,λDC,MPF,L: 潜伏故障的诊断覆盖率。 ─ 由于λ=λSPF+λRF +λMPF +λS,所以残余故障多为双点或多点故障MPF。 此外,硬件架构度量取决于相关项的整体硬件,都应符合规定的硬件架构度量的目标值: 针对ASIL (B)、C或D的安全目标,对于每一个安全目标,“单点故障度量”的定量目标值应基于下列参考目标值来源之一: 针对ASIL (B)、(C)或D的安全目标,对于每一个安全目标,“潜伏故障度量”的定量目标值应基于下列参考目标值来源之一: 需要注意的是: 1 硬件架构的度量是针对于相关项的整体硬件,非一个单独的硬件部件,需要考虑所有相关硬件的失效率。 2 度量指标,即SPFM和LFM,均属于相对值,即百分值%。 04 硬件随机失效的评估 随机硬件失效的评估旨在从硬件整体设计的角度,即综合考虑不同类型硬件随机失效,确保硬件系统安全机制和设计的有效性。ISO 26262对这一评估推荐了两个方法:
─ λSPF: 单点故障的失效率,λRF: 残余故障的失效率,λDPF_det: 双点故障的可探测失效率,λDPF_latent: 双点故障的潜伏失效率。 ─ TLifetime: 车辆生命周期。 1 PMHF表示在汽车运行周期中每小时平均失效概率,包括了对单点失效,残余失效,可探测的以及残余的双点失效的综合量化衡量。 2 PMHF单位为FIT,属于失效率绝对值度量,而硬件架构度量指标SPFM,LFM单位为%,属于相对值度量。 3 除基本硬件随机基本故障的失效率以外,PMHF还需要考虑车辆生命周期(TLifetime)。 4 对于双点故障(A,B),最常见的组合是功能故障A和对应的安全机制B,当故障A发生且不被安全机制B探测,并不会立刻违背安全目标;但如果安全机制B也发生故障,将违背安全目标。 很对朋友搞不清楚为什么双点故障失效率计算是λDPF_det, λDPF_latent, TLifetime这三个因素的乘积? 其实该公式已经属于简化后的计算公式,在ISO 26262-10:2018对典型的双点故障不同的失效模式进行了分析,一共包含了4个Patterns,功能发生故障A且对应的安全机制B潜伏这种Pattern下,双点故障会在整个车辆生命周期永久潜伏,影响最大,因此故障A和故障B组合违背安全目标的每小时平均失效概率为λDPF_det, λDPF_latent, TLifetime这三个因素的乘积,双点故障失效计算因此也简化为该Pattern下的失效率,具体见ISO 26262-10:2018。 如果这部分数值较小,则可忽略,这也是为什么在很多计算中没有考虑这部分的原因。
─ 失效率: 单个硬件组件。
─ 失效率: 表示单位时间内单个硬件组件或零部件发生故障的次数或概率。 ─ PMHF: 用于衡量硬件安全设计是否足够有效。具体来讲就是,相对于指定的ASIL等级要求,由于相关项的随机硬件故障而导致的安全目标被破坏的风险是否足够低。PMHF并不显示随机硬件故障发生的频率。即便一个硬件组件的故障率很高,但由于良好的硬件架构,包括安全机制,整体的PMHF也可能较低。 a) 来自表6;或 b) 来自值得信赖的相似设计原则的现场数据;或 c) 来自应用于值得信赖的相似设计原则中的定量分析技术。 此处需要注意的是:
写在最后:
|
|