分享

自适应系统的设计

 njnh 2014-05-23
       自适应硬件自动地改变它们的行为以适应故障和环境的变化需求,这些改变只有在特定的时间段内发生才会有效。因此自适应系统应具有容错性和实时两方面特性。
         容错包含两个不同的过程:故障检测与隔离(Fault Detection and Isolation,FDI)及故障恢复(Fault Recovery)。演化硬件对FDI过程没有作用,但它很适合于进行故障恢复操作。
故障检测与隔离
FDI方法可用来判断一个系统的行为是否发生了改变,如果是,则判定系统的特定部位发生了故障。理论上故障检测很简单:只要观察系统响应是否与期望的响应一致。通常以性能阀值作为判定标准,超过阀值则表明系统出现故障。不过在设置这些阀值时需要注意:若阀值过宽,则会出现漏检;若阀值过窄,则会出现误判。实际上,真正的困难的是故障隔离,其根本在于可能会出现多种故障变现为同一症状的现象。
关键的术语:
(1)事故(Mishap):任何意外的或一系列导致伤害、死亡或其他灾难情况的事件
(2)危险(Hazard):任何实际存在的或潜在的可能引发人员伤害、疾病、或死亡、系统破坏或崩溃、环境破坏的条件。
(3)失效(Failure):无力完成指定任务
(4)故障(Fault):可能引起失效的缺陷
这几个术语之间存在一个因果关系,具体表现如下:
故障——失效——危险——灾难
(5)故障模式(Failure Mode):对系统或组件的行为以及性能产生不利影响的一类缺陷。
判断系统出现故障的原因及其产生的后果可能通过多种方式进行,典型的方法包括:
  故障模式与效应分析(Failure Modes and Effects Analysis,FMEA):一种自下而上的分析方法,可检查每一个组件的故障模式,并判断这些故障如何影响系统性能。
故障树(Fault Tree Analysis,FTA):一种自上而下的分析方法,起假定已经发生了某个故障,然后逐个分析子系统,查找故障源。
故障模式与效应测试(Failure Modes and Effects Testing,FMET):向系统注入故障并观察其影响效果。
设计者可以使用FMEA或者FTA来确定系统的故障模式及其效应。通过对每个效应的分析可以看出,采用何种措施可以避免该效应的发生,以及发生故障后允许故障恢复的时间长短。
故障恢复
使用得最广泛的硬件故障恢复方法之一是冗余(Redundancy),该方法使用一个功能相同的备用部件来代替故障部件。硬件冗余有一个显著的好处:正常情况下它可以完全恢复系统发生故障之前的行为。缺点是,系统并不是总处于正常情况下的,这就有可能使冗余方式发挥不了作用。比如在某些系统级别的任务里,重要的设备占据几乎所有的可用空间,因而无处放置备用硬件。另一种情形是,系统在工作环境里由于无法预测的变化引发的故障,比如高辐射环境会在金属氧化物半导体中引发辐射效应,高温使电压转换器失效。这些环境条件不变,仅仅简单地依靠使用相同备件去替代原系统的部件,并不能达到好的效果。
另一种故障恢复方法——也是演化硬件的特别突出之处——重构。重构可以有条理地从组件参数和组件间的互连两个方面去着手改变故障系统的电路,直到恢复系统原有功能。只有了解了某个故障的具体根源,确定性修复方法才具有很高的效率。一个纯粹的确定性修复方法,如硬件冗余,对于因环境变化引起的故障基本上束手无策,在这种情况下,随机性修复方法可能是唯一可依赖的选择。随机性修复没有预设方案,它比确定性方法更加灵活,适应性更好。因此,随机性修复能更好地处理预料之外的情况。
随机性修复方法使用可重构器件。实际上这些器件可以通过事先定义一套配置、在需要的时候再下载的方式来确定性修复。另一方面,演化硬件在可重构器件中综合了演化算法的强大搜索能力。演化算法所进行的是一种随机性搜索,这是演化硬件被看做是随机性修复方法的主要原因。演化硬件不依赖于预定义的配置,它通过演化来产生配置。演化具有创造出不可预测的电路形式的潜力,而这种电路可能正好是修复预料之外的故障所需。
实时系统
实时系统是指任何在逻辑上和时序上都正确的系统。
逻辑上正确,意味着系统能根据要求完成所有指派给它的任务和功能而不出现故障;时序上正确则表明在给定的时间段内系统能够确保这些功能的实现。容错系统之所以能够看做是实时系统,主要是因为FDI和故障恢复在本质上是有时间限制的。换句话说,当出现一个故障后,在一定时间段内必须诊断并隔离该故障;在被诊断出来的一定时间段内,该故障必须被修复。故障修复也需要有一个预期的启动时间,也就是说,不管要花多长时间来修复故障,都必须在故障发生后的一段时间内开始进行。注意实时系统的定义里面并没有提及必须非常快。事实上,时序正确性并不需要事件发生在毫秒级甚至纳秒级,它只要在需要的时间段内发生就可以了。
实时系统又可分为硬实时和软实时。这样的分类指出了在时序正确性得不到满足时的结果:在软实时系统中,如果不满足时序要求,则仅仅降低了系统的性能;在硬实时系统中,如果出现类似的错误,则可能产生灾难性后果,甚至导致整个系统崩溃。准确的容错系统分类应根据故障的特点,以及无法及时诊断和修复故障所导致的后果来确定。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多