缘起 感谢中国建筑技术集团有限公司提供的实践机会和部分素材与经验。 三大常识 本文分享的三大常识:海恩法则、浴盆曲线、墨菲定律,均在数据中心之外的安全生产与运行方面经过了重重考验与验证。 数据中心发展至今,我们收集汇总了成千上万的数据中心安全运行实践与发生的故障和事故总结(后续我们会逐步分享部分案例,欢迎大家关注本号,及时查阅),发现三大常识在数据中心基础设施领域内,也都得到了很好的验证。 由于三大常识对于数据中心安全可靠运行,避免运行事故,减少运行故障有着非常巨大和显著的参考和指导作用,为了实现新一代绿色数据中心俱乐部关于“实现数据中心节能减排,绿色环保,可持续高效发展”的宗旨,特分享给各位有缘闻见者。 海恩法则 1、海恩法则认知 海恩法则(Heinrich's Law),是德国飞机涡轮机的发明者德国人帕布斯·海恩提出的一个在航空界关于安全飞行的法则。 数据中心安全运行与安全飞行如出一辙。 2、海恩法则应用 主动、专业、冗余、不侥幸。(记住这经过血与火考验的九字真经,诠释了永续运行之道) 主动:既然事故可以预测预防,设计上我们需要主动的进行相关的故障预警及性能监测设计;运维和维护上我们更需要: 主动的进行预防和预测性维护; 主动寻找事故隐患、先兆,避免事故的发生。 至少避免突然事发的被动,对可能发生的事故,心中有数,做好相应的人,财,物的准备,尽最大可能减少事故损失,并避免事故升级和损失扩大。 专业:数据中心涉及的系统繁多,时间跨度极长。设计、建设、运行、维护均与运行安全息息相关。 如何对其进行性能监测和故障预警? 如何进行主动预防和预测性维护? 如何提前发现事故隐患、先兆? 要想做到这些,没有足够的专业人员和专业水平,是不可能胜任的。 冗余:受限于专业水平、内部及外部团队的主动性,即使处理了999起隐患,遗漏的一起仍然可能导致事故的发生。 因此需要根据现有内外部团队的主动性、专业水平,制定合适的设备、路由和系统冗余,从而避免难以/不可接受的整体宕机,通过事先的冗余投入,减少事故损失。 不侥幸:时间在变,设备和系统的老化程度也都在变,内外部团队的人员或者水平也都在变,逆水行舟中,心存侥幸,必将让运行之舟颠覆,危害系统安全。 即使内外团队足够专业、主动、系统也存在合理冗余,不侥幸就是在不停的主动优化,就是让专业更专业,让主动更主动,让主观能动性变成系统冗余的第二道人力长城。 浴盆曲线 3、浴盆曲线认知 浴盆曲线(Bathtub curve,失效率曲线)的另一个名字叫典型故障率曲线。曲线的纵坐标是失效率/故障率,横坐标是时间。 曲线的形状呈两头高,中间低,具有明显的阶段性,可划分为三个阶段:早期故障期,偶然故障期,严重故障期。浴盆曲线是指产品从投入到报废为止的整个寿命周期内,其可靠性的变化呈现一定的规律。 数据中心也可以看成一个复杂的综合工程型产品,或许未来,软件定义、大数据等技术发展,一个数据中心也和一个手机一样简单易用。 图示平稳段时间的长短与设计、建设水平有关,也与分期建设有关,无论是外部还是内部的变化都可能成为一个失效曲线的脉冲尖峰,突破数据中心投运中期的可靠运行。 4、浴盆曲线应用 主动、专业、冗余、不侥幸。(记住这经过血与火考验的九字真经,诠释了永续运行之道) 认知到典型数据中心的失效率曲线特征,主动进行思考和分析,寻找解决问题的办法,避免失效率高升,影响数据中心运行安全。 比如要想解决投运前期可能出现的磨合、匹配、设定、平衡、设计、建设、调试类缺陷带来的故障率居高不下,我们需要专业的测试团队,在系统真正投运前,对系统性能进行各种验证和测试,甚至是对各种应急方案进行测试、改进和验收。 在建设完成到投运之前的主动、专业的测试,是唯一能有效验证解决投运初期失效率高的手段:
在运行平稳期,我们需要专业而主动的运维团队,一方面压制变化(源自产品、环境、人员随时间的变化)带来的失效脉冲;另一方面通过专业而主动的预防性和预测性维护,保障系统可靠运行。 在运行后期,通过定期的健康评估或者专业而主动的性能与故障监测与分析,并针对性的决策出设备该提前退役还是延期服役,既能保障设备的高效利用,又能保障系统的运行安全不受影响。 图示的红线可以理解成设计建设的该数据中心不出现整体宕机所允许的系统失效率。一旦数据中心失效率曲线突破该红线,就说明发生整体宕机的概率很大,并且极有可能在横坐标所对应的时间区域内发生。 比如说一个A级数据中心其红线就会比B级的数据中心要高,说明它允许的失效率更高,却不会带来更严重的后果。红线越高,其对数据中心系统硬件的冗余度要求也越高,初投资也越高,因此一个优秀的数据中心既不应该无限提升红线高度,也不能允许失效率曲线突破红线。 如前所述通过专业而主动的测试与运维,我们能够提高系统可靠性,降低系统失效率,从而形成绿色的新型失效率曲线。该新型失效率曲线完全位于控制红线下方,如果一切正常有序进行,将不会出现整体宕机事故。 如果存在任何侥幸,而在主动、专业、冗余上不够重视,你永远不知道侥幸和意外谁会先来敲开你的大门。 而不侥幸就是在主动、专业、冗余上进行正向循环,努力追求更主动、更专业、更适合的冗余。 墨菲定律 5、墨菲定律认知 墨菲定律是美国爱德华兹空军基地的上尉工程师爱德华·墨菲(Edward A. Murphy)提出来的。起初仅仅是一种心理学效应,但后来发展成只要有人参与的事故经验定律。 数据中心虽然设计、建设要花几千万甚至几十上百亿的资金, 但是其在长达20-40年的时期内的运行、维护、改进与更新等核心过程中都有人员参与甚至是主导。 即使是设计、建设中也是有大量人员参与其中, 而且投入的那几千万甚至几十上百亿的资金最后换成相应的部件、设备、系统乃至整个数据中心, 依然是充满了各种各样的人类的研发、生产、制造、销售、安装、调试的活动。 6、墨菲定律应用 主动、专业、冗余、不侥幸。(记住这经过血与火考验的九字真经,诠释了永续运行之道) 专业: 专业运维也不像表面看起来那么简单, 有一个专业的制度或者体系照着做就行了。 因为一切都在随着时间变化,气候在变,环境在变,设计、制造、安装、调试、运行、维护的人可能也在变,客户或者应用需求可能也在变,没有任何一个专业的制度会事无巨细均覆盖且均有详尽的指导。 那我们能怎么做呢?九字真经,照做即可。 冗余: 所有的事都会比你预计的时间长, 那我们能怎么做呢?九字真经,照做即可。 主动: 你担心某种情况发生,它就更可能发生, 不存在无缘无故的担心,你担心而不去主动处理,你的小伙伴们可能也都如此,那么谁在火上烤呢? 那我们能怎么做呢?九字真经,照做即可。 不侥幸: 会出错的总会出错,尤其是你心存侥幸的时候, 那我们能怎么做呢?九字真经,照做即可。 主编寄语 主动、专业、冗余、不侥幸。(记住这经过血与火考验的九字真经,诠释了永续运行之道)。 主动而不侥幸是一种专业的态度,合理的冗余(人员、设备、系统、能力)更是专业的一种体现。 专业、冗余、不侥幸都是主动应对的态度: 不专业只能被动的听别人讲,将一切交给友商和运气; 不冗余,只能被动的等待失效曲线突破上限,造成一个又一个事故; 侥幸,只能被动的等待事故来敲你的门。 其实这九个字的真经表示的是同一个意思,要想融合贯通,可能就变成无字天书了。 最近技术上有些懈怠,感谢朋友们一如既往的支持。借用笔者赠给付安然小朋友的诗自勉。 游万里书山补勤为径,渡百转学海化苦作舟。 为了更好的促进朋友们的交流。百晓生所著需求、会议、活动、推广、信息汇总类文章将全部改由新的微信订阅号TME不定期发布,本会刊及俱乐部将专注于数据中心相关的科普、咨询、案例等技术型研究、推广和分享工作。 近期文章 |
|