分享

精读 | 故障向下 运维向上 (之三)

 昵称bL4ze1MC 2015-07-22

1正确理解标准是提升运维第一步

从基础设施运维管理标准来看,国内还没有发布过针对数据中心基础设施运维管理的国家标准。在行业内中国数据中心产业联盟刚刚发布了《数据中心场地基础设施运维管理标准》,为数据中心基础设施管理者提供了具有行业高度的管理思路。


国际上目前只有Uptime M&O运维管理标准可以借鉴,但对于标准中的范围是否能与国内数据中心管理体制相结合,能够完全适用国内本地数据中心的运维工作,还需要具体要求具体看。


2快速建立自己的运维体系是提升运维的第二步

由于管理者经验不足,建立运维管理体系时间跨度过长,体系中涉及的管理流程、操作流程与本地数据中心实际运行情况不能完全融合,造成管理体系无法落地执行。最后的结果往往是管理工作的缺失,或以事故教训作为代价。这对自有运行的数据中心或面向客户服务的第三方数据中心服务商来说都是不能接受的,也是不允许的。


在2014年,西北某银行因系统故障宕机造成存取款、网银、ATM等业务全部中断长达37个多小时。监管部门的相关通报认为,该银行系统故障的根源在于,安全意识薄弱、应急管理体系缺失、应急处置过程混乱。核心系统数据库版本严重老化,多年未购买维保服务。核心系统长期缺乏维护,事故发生后,无法获得系统供应商及时的数据支持。系统恢复过程中,缺乏应急预案和准备,长时间无法实施有效处置,导致业务恢复缓慢,对银行产生较为严重的影响。


“如果从人、流程、工具这三方面评价,该银行的运维体系几乎是空白。” 从业超过30年的资深金融信息化主管张先生认为超过缺乏运维体系的规范化管理是造成这起事故的重要原因。


根据数据中心的发展现状,快速提升数据中心基础设施运维管理工作,更好的理解、借鉴和运用国内、国际标准建立并完善具备较强实操性、能降低流程风险的数据中心基础设施运维管理体系,才是实现数据中心业务安全、稳定运行的有力手段。


3运维新主张:基础设施运维咨询服务

“我们正在借助运维咨询服务来完善体系,这是值得推荐的运维新主张!”国内某金融用户非常认可运维咨询服务,越来越多的用户逐渐看到了这项服务带来的更多价值。


复合型专家

由于数据中心基础设施运维工作对于电气、暖通、弱电等专业要求的专业性,在最初的数据中心运维团队人员配置上更加偏向技术层面。目前大多数数据中心运维管理团队人员在专业技能上有多年丰富的运维经验,但对于建立有效的管理流程、管理制度、操作流程,搭建运维体系上缺乏实践经验。


同时,还有部分数据中心运维管理团队人员对于运维标准有着深刻的理解,在体系流程建设上有着丰富的经验,但往往又缺乏专业技术能力。以上两种情况造成的结果就是,管理和技术很难相融合,在数据中心体系建设过程中双方磨合时间较长,体系建设时间跨度较大,再加上如果在体系建设过程中运维人员发生变动,最终导致体系建设工作失败,或流程体系很难落地执行。运维人员还是忙碌于日常琐碎的运维工作中,无法真证有效的去关注、提升运维水平。


而从事运维咨询业务的第三方服务提供商,往往拥有配备包括电气、暖通、弱点等多个专业的经验丰富的技术人员,并且拥有丰富的项目经验,能准确洞悉数据中心在运维体系上的差距,帮助提升运维能力。


导入式服务

“我们会依据国内、国际标准及行业内数据中心最佳运维实践,对数据中心运维团队进行现场调研,并准确的为用户指出运维工作的问题及与行业内数据中心运维管理的差距。让用户清晰看到运维团队运维水平,根据改善的建议,数据中心可有效的提升运维管理水平,向国内、国际运维水平看齐或超越。”


服务过多家金融机构、IDC等单位的运维咨询服务提供商中科仙络咨询经理李永涛认为运维咨询服务可以根据数据中心本地化的要求,结合国内、国际标准设计和搭建成熟的运维管理体系模型,同时协助用户进行体系导入,在体系导入过程中完成数据中心基础设施管理制度、管理流程、操作流程等相关文档,同时协助用户对操作文档进行验证,保障体系文档的可用性。可大大提升数据中心运维体系建设的工作效率。


可降低成本

可协助用户有效的将管理和技术相结合,保障了体系文档的可用性,为数据中心运维工作的后续开展提供了基础保障,也为用户减少了体系建设人力投入成本,在体系建设过程中只有少数人员参与即可,同时保障了运维工作能够平稳有序的进行。


体系化培训

咨询公司除本身运维体系建设咨询服务外,同时对于数据中心运维人员的培训、运维工具系统、基础设施标识系统,均可提供相关咨询服务。

1)运维培训,采用理论+实训的方式。传统的培训服务,仅停留于专业、管理的理论知识,没有实际操作的机会。现在不仅针对运维人员对专业理论知识的理解,同时可为运维人员提供实训基地进行实际操作培训,进一步提升了运维人员技术能力。


2)运维工具,传统的运维工作中多以纸质表格作为流程、维护、巡检等工作的输出记录,此种方式虽然可以保障运维工作的开展,但对于运维人员执行力上来看,并没有有效的管控,且运维效率不高,加上纸质办公成本居高不下,也给记录管理的工作带来不小压力。引入自动化的系统可以有效的解决这些问题,保障了运维管理流程、维护工作的执行。大大提升了运维效率。所有工作处理过程被全部记录到系统中便于后续的追溯及汇总。随着运维工具自动化的提升,同时减轻了运维人员工作内容,从而可以优化运维成本。

3)标识系统,机房的标识管理是信息系统标准化建设的一个重要环节标识管理不仅仅是标签单独的产品,而是一套标识管理系统。标识系统可有效提升运行维护水平,所有设施设备标识清晰可使日常运维工作井然有序、降低维护操作事故发生率。

点击“阅读原文”,分分钟原汁原味杂志印刷版快递到手哈。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多