分享

资产分级、故障分级在运维服务质量测评工作中的探讨

 迷途海马 2017-02-22


近期在做运维服务质量评价工作,遭遇了两种思路,一是根据资产的重要性进行分级;一是根据故障的影响力进行分级。下面分别就两种思路进行探讨。

资产,也就是服务对象,肯定有重要性的区分,相关的服务保障标准肯定有所区分,但其中有一个最大的BUG,就是把资产的故障单一化了,要么好,要么坏,这就产生一个问题,到底这个资产的故障对业务造成影响了吗?可能有,但很有可能是无,比如说一个磁盘阵列,本身为核心资产(分为核心、重要、一般三级),坏了一块硬盘,但却未对业务造成影响,故障时间1小时,如果把这个故障归类到核心资产故障,那么服务商就哭了。

那么,我们也可以纯粹从结果来看,没影响业务的就不算故障,这样合理吗?(还真有此案例,某机场二号航站楼安防系统运维服务标准中,超过15分钟才算故障),其实也有一定的道理,但这样的话,可能会丢失许多重要数据,那些没超过15分钟的故障事件,可能就没有进行记录,而这些记录都是很有价值的。(往好里看,其只是统计上的不纳入,而非未记录)

所以,个人认为最合理的,还是要综合考虑故障对业务的影响、故障影响范围(功能丧失程度)、系统重要性等因素,完整地记录服务数据,合理地对服务商提出服务要求。

如果不考虑业务影响因素,那么很多在深夜进行的维保停机、系统升级操作、应急演练等,早已经让服务商的考核指标严重超标了,过往的做法则是忽略这些事件。加入业务影响因素后,那么重保及上述工作都可以纳入考核模型中来。

此外,某位领导提出区域要素,这也是一个很好的建议,从业务服务对象角度出发,重点区域设备获得重点关注,这也是必要的,为此对此类设备提出更高的可用性、响应性标准,也是合情合理的,当然也会让整个考核模型变得更加庞大。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多