分享

精读 | 故障向下 运维向上 (之四)

 昵称bL4ze1MC 2015-07-22
金融用户运维咨询服务项目案例

项目名称:某国内金融用户运维咨询服务

咨询依据

1、某金融用户运维管理目标

2、国际运维标准

3、咨询公司最佳实践经验


项目主要流程

1现场调研

与金融用户管理层以及数据中心运维团队相关人员进行现场面谈和调研,了解现有运维现状。将银行数据中心运维的基本情况,结合运维标准框架和实践经验进行比较分析,梳理它们之间的差距,提供差距分析报告并以此为依据制定咨询服务的具体实施方案。

2体系导入

对银行管理现状与相关管理层的要求,结合运维标准及咨询公司在数据中心运维管理的最佳实践,系统地指出数据中心应增加何种管理领域的建设,从而提升数据中心的运维管理范围,为数据中心搭建运维管理体系模型。

3文档建立

根据确认的运维体系管理域及文档模板,协助建立运维体系文档,文档包含管理制度手册、管理流程手册、操作流程手册及输出表单。所有运维文档以体系文件管理树的形式展现。运维体系文档建立完成后,对体系文档进行验证、完善。经过修订后体系正式发布启用。

4人员培训

体系建设完成后,将已完成的体系文档对不同岗位的运维人员进行针对性的培训,建立培训计划。管理性文档会针对运维管理层进行培训,操作性文档会针对运维技术人员进行培训。培训后会对运维团队所有人员进行考核。保障运维体系启用后能够被有效、完整的执行。

咨询辅导过程中发现的主要运维问题

通过机房现场及运维工作两方面的咨询,共涉及机房现场23项问题,运维工作15项问题。

如上提到的金融用户在运维管理上的问题,其实也是整个金融行业内普遍存在的问题。造成问题出现的主要原因有如下几个方面:


1、金融用户管理体制,金融行业本身资金非常充足,在设施建设和投入力度上非常大,可是考虑到安全管理方面的原因,在运维人员投入上却非常少。所以在人员配置上的投入成本很少,造成运维人员数量无法满足7*24要求。尤其是金融用户总行数据中心运维人员除需要完成总行数据中心运维工作外,还需要下属分行、支行数据中心的运维工作。再加上非正式员工不能有权限进入机房的要求,造成金融用户运维人员工作量超负荷,岗位职责不清晰,不能全身心的投入到数据例行维护工作中。


2、金融用户数据中心普遍为自建数据中心,进出入机房运维人员均为基础设施及IT部门自有运维人员,所以在日常运维过程中,运维人员为了方便例行工作往往在机房安全管理上考虑不是很多,包括场地环境的管理、上电机柜、设备管理、线缆管理、标识管理、卫生管理等。大家都抱着侥幸的心理,认为设施配置非常完善,不会出现重大的事故。在细节管理上不会给予重视,所以在从机房现场管理来看给人第一印象,机房区域内就像个大仓库。


3、从运维流程管理上来看,金融用户从信息科技部到IT、基础设施部分是非常重视的,都会参照很多行业内最佳管理实践、标准建立相应的管理制度和流程。却对于人员流程培训及监控上管理的力度很小,大家每天都在忙于日常例行琐碎的工作上,造成结果是数据中心有相关流程,但运维人员对于流程熟练度并没有完全掌握,甚至不了解,且流程执行的质量上没有监督机制,造成流程制度成为了空架子。


综上所述,从近几年金融用户出现的重大故障分析来看,究其根本原因都是在运维管理细节上出现了问题,运维无小事,当这些细节管理没有得到管理人员及运维人员的关注时,风险也会悄然而近。作为数据中心运维团队人员只有持续性的不断改进、完善运维工作,才能真正的去保障数据中心运维安全。

作者手记:

    在互联网+正在把数据中心打造成业务中心的时代背景下,运维逐渐成为数据中心最敏感的神经。建立和完善适合自己的运维体系更成为降低故障的有力武器。无论是选择自己摸索前行的传统团队,还是使用高效、专业的运维咨询服务,都是对自身运维差距的客观改进,也都开启了主动运维的新篇章。


点击“阅读原文”,分分钟原汁原味杂志印刷版快递到手哈。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多