分享

我的心得:数据中心运维&管理(二)

 tuzhanbei2010 2018-01-18


5:追其根源,防患未然:5Why 分析法在数据中心的应用;如何有效的解决问题,首先需要了解产生此问题的因素和最根本因素;如何寻找根本原因?需要更加有效合理的工具方法,下面给大家介绍一下典型的 5-Why 分析法:


什么是 5-Why

5-why 的关键在于鼓励解决问题的人要努力避开主观或自负的假设和逻辑陷阱,从结果着手,沿着因果关系链条,顺藤摸瓜,直至找出原有问题的根本原因。


5-why 分析法基本步骤:



5-why 在数据中心解决问题的案例—


★步骤 1:识别问题


        7×24 小时值班,采用热成像仪巡查发现电线有热点现象;



★步骤 2:澄清问题


动力设备配电装置中,电线在负载不高的情况下,电缆接线位置温度达到 45.8 摄氏度,而且三相中,B 相电缆头温度最高;


★步骤 3:分解问题


值班班组记录发现的异常现象,需要向班组长等相关人员汇报,运维管理人员进行判断并展开调查,将问题分解为小的、独立的元素。


★步骤 4:查找原因要点(PoC)


查找原因要点,查找此设备的验收和检修记录,查找历史有关信息和资料;确保是否有历史检修记录;


独立因素如下:1:设备厂家供货,独立的责任主体;


相干因素:1:变频器谐波因素,2:电线压接线耳接触面不足,3:电线安装固定螺丝松动,4:电线截面选型偏小;


★步骤 5:把握问题的倾向


问题倾向:1:电机容量和负载率;2:交流接触器产品质量问题;3:线缆选型偏小不合理;4:线缆接线不牢固;


★步骤 6:识别并确认异常现象的直接原



★步骤 7:使用“5 个为什么”调查方法来建立一个通向根本原因的原因/效果关系链


(1-Why)问:“为什么会产生局部热效应?”


 答:“因为接触不良原因产生局部热效应。”


(2-Why)问:“为什么接触不良呢?”


       答:“1:因为接触器接触不良导致发热造成热传递,

                  2:接线耳和线缆压接不良,

                  3:电缆和接线端子未紧固。”


(3-Why)问:“为什么接触器接触不良/压接不良/未紧固?”


         答:“1: 因为接触器自身质量问题,触点接触不良导致温升;

                     2: 厂商生产工艺不良,导致温升;

                    3: 前次改造维修未紧固,导致温升。”


(4-Why)问:“为什么接触器自身质量问题/厂商生产工艺不良/前次改造维修未紧固?”


        答:“1:因为接触器自身质量问题,器件品质质量和口碑不佳;

                  2:盘柜厂商生产接线工艺不良,厂商质量体系实施的不到位;

                  3:前次改造维修未紧固,造成遗留诱发问题;”


(5-Why)问:“为什么器件品质质量和口碑不佳/厂商质量管控不到位/造成遗留诱发问题呢?”


       答:“1:商务采购未选用优质品牌的产品器件,器件规格不匹配;

                 2:商务采购中未对供货商的质量检查和资质进行排查,未选择合格的供应商;

                 3:运维&管理职能疏忽,管理不到位,未对前次施工改造维修验收;


★步骤 8:采取明确的措施来处理问题



经过连续五次不停地问“为什么”,对每个因素独立询问,找到问题的真正原因(交流接触器接触不良)和真正的解决方案(复核参数重新选择交流接触器)。由现象推其本质,因此找到永久性解决问题的方案,这就是 5-Why。


数据中心运维管理方对于每次的故障要寻根找到最终原因,走根本角度去解决问题,将问题彻底解决。


6:持续优化,节能降耗: 人才管理提升企业竞争力降低成本;


通过了解发现目前各个大型数据中心在设计和系统架构,设备采购,施工管理和验收等项目各个环节中遗留下来的问题,未能积极有效的处理,最终落到运维阶段,所以在运维管理工作中出现大量缺乏经验和考虑的遗留问题,同时企业在运维管理方面的重视程度也不足,最终就在行业内形成了“数据中心运维背锅侠”“数据中心忍者神龟”等行业新名词。


整个行业发展离不开行业人才基础的培养和发展,新兴行业的发展和竞争本质是人才竞争,企业长期成长性更是企业人才竞争能力的体现。


数据中心运维中出现的各种问题都可以归结到专业人才的缺失因素,如:业主在进行项目立项时需求的明确性,由于缺乏专业人才而导致无法描述自己准确的需求,只能听从设计院的设计;设计院的成熟度也导致项目设计为能有效的实现业主投资的目的和运维实际情况的考虑因素;项目采购和施工过程中夹杂的各个各样的因素,而且无法进行有效的管控和专业的技术人才进行落实和验收,各种各样的施工质量和产品质量问题遗留给运维方;企业运维管理体系的完善的也有待商榷,各个公司对运维的重视程度也导致运维管理体系运作的方式有着各式各样的特性,从而导致“无辜的”事故导致“无辜的”人员,也就是“背锅侠”的产生。


当数据中心运维发生问题或是事故时,各种因素的叠加效果和共同促进才会导致较大型或是不可预控的事故的发生,所以运维管理方也要有理有据的对事故进行分析和归责。


行业发展按照顺时针的自然方向发展,竞争力的企业在不断的完善自己反向的明确的主动的需求;能够提出合理明确的需求是企业竞争力的有力表现。人才管理提升企业竞争力,降低成本,推动自身在行业中的发展。


总结:被动接受是一种无奈;明确+主动+需求才是运维&管理对 IDC 项目生命周期的全新的认知和理解。


7:管理的“最后一公里”:目标制定和执行力落实;


所谓执行,就是将计划落到实处,是一个实现目标的过程。


运维&管理的计划和计划的执行是不可分割的,编制计划的目的就是使之得以落实,以实现目标,计划是执行的指南,明确了执行的路径;而执行就是落实计划。所以,执行是项目计划的一个内在组成部分。


执行力是指运维&管理的管理组织落实计划的能力。


执行力是可以提高的,也是可以度量的。

企业培训资源 80%用于 20%的人员,现场运维值班人员和维修保养人员学习提升资源有限,需要管理层重视执行层面的质量提升,积极鼓励专业知识的补充和提升,并给予鼓励性奖励和学习资源的配置。


万里长征万里还,走上运维的道路,任重道远,各个运维管理的工作同事都应该理解和明白这份工作的特殊性和责任心,无需华丽的辞藻来修饰运维工作的神秘感,理想和客观的对待,企业和公司高层也应给予运维管理从业人员关怀和生活方面的支持。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多