分享

干货十足!新华三数据中心运维在郑州商品交易所技术中心的最佳实践

 yi321yi 2018-12-05

数据中心全生命周期服务和客户概况

新华三拥有世界领先的数据中心关键设施技术,被公认为数据中心专业服务的领导者,是全球领先的数据中心全生命周期(咨询规划、设计、实施、验证及运维)服务的提供商,在国内有超过100个成功案例(其中一万平米以上案例和金融客户案例均超过30个)。

为适应数据中心发展和用户的需求,新华三每年都投入大量资金来支持开发和研究工作,这些都是新华三赢得客户信任的基础,也是客户投资的可靠保障。

郑州商品交易所(以下简称“郑商所”)在郑东新区建成的技术中心,是承载期货交易结算和风险控制等期货业务的信息技术基础平台,也是郑商所未来10年或更长时间内运营其核心技术系统并向行业客户提供高质量托管服务的高技术园区。

在本项目中,我们把国际最先进的数据中心基础设施运维的最佳实践理念注入到项目中。另外,对现代数据中心业务、IT策略、硬件设备的充分了解与运维服务经验,也是我们对此项目的突出优势。


项目的目标是把技术中心的数据机房建设成业内领先的高端数据中心,同时建立先进的运维管理系统和操作流程,使用户的业务连续性得到可靠保障。新华三提供整体的项目管理,同时在甲方、第三方的协同工作下,必须力争保证IT设备的“电力中断”次数为0。新华三将实施保障关键业务稳定运行的综合解决方案。提供给IT设备的安全持续运行环境达到99.99%可用性要求。


数据中心的验证测试

数据中心建设完成后,在实际运行中,将面临众多考验,其能否稳定、可靠地高效运行,将直接影响到企业的业务发展。因此,在正式投入生产前,其所有基础设施系统是否能满足运行要求的实际可用性,尤其是在数据中心所有的机柜都是满负荷的状态下,数据中心中的各个环境系统是不是还能满足IT设备运行的要求,这就需要按照业务要求、设计指标等进行数据中心的调试验证,给出当设备在不同负荷时的数据中心各系统的数据,以利于后期运维管理,确保数据中心的高可用性。验证测试完成后提交验证测试报告和整改建议。


运维体系导入

运维支持服务体系需要在组织结构、管理规范、管理流程和技术支撑方面,构建一个综合的支持服务体系,对基础设施如风火水电设施,和IT设备如网络、设备、系统、用户等的管理和服务连接关联,实现数据、信息和知识库的共享,并实现规范化和流程化。


运维支持服务体系需要梳理运维管理需求、规范运维管理流程,建设一套科学有效的融合组织、制度、流程、技术的运维管理体系,且这套体系是符合ISO9000和ISO20000的标准规范的。从粗放和分散式管理,逐步过渡到科学、规范和专业化管理,使运维支持服务体系成为支撑运维工作的重要组成部分。


主题讨论会


现场调研


运维体系建立


制定运维计划和方案

基于服务目标,定义SLA(服务等级协议),制定相应的运维计划和方案如下:

◎制定运维计划和方案 

◎制定设备维护计划和方案

◎制定工程师培训计划 

◎制定应急演练计划和方案

◎制定工程师绩效考核计划和方案



运维组织架构

项目组织结构图具体如下图所示:

运维人员总体配置:

运维一线人员总共14人:其中运维班长2人(中标方、招标方各1人),运维工程师12人分为4班(第三方工程师4人、业主工程师8人),每班3人,按4班2轮换方式,承担7×24小时机房环境监控值班室轮流值守和机房巡检工作。

运维二线支持团队包括运维电气专家、运维暖通专家、注册电气设计师、注册暖通设计师、应急演练专家、一体化运维架构师、ITSM流程专家、ISO20000专家、运维专家等方面的专业人员,为现场运维团队提供专业技术支持、运维工具支持、运维流程咨询和落地、运维文档的完善和应急演练实施,为机房的运维工作提供全方位的服务。


ITSM工具部署

基于ITIL的管理框架,新华三提供了定制化的ITSM工具,ITIL的标准流程事件管理、问题管理、变更管理、配置管理、知识库管理进行了部署和应用,针对客户的具体情况,还部署了服务请求管理、值班管理、维护日历管理和应急演练管理。ITSM工具的部署保障了运维体系的运行,积累了运维数据,为运维报告和分析提供了数据支撑。


服务报告和分析

基于运维计划和方案组织实施,制定周服务报告和月度服务报告。

◎周服务报告

周服务报告包括每周运维工作的统计和分析,以及对事件的跟踪。周报告以邮件形式发出。

◎月度服务报告

月度服务报告以会议形式举行,是每月运维工作的总结和分析,包括:

- 事件管理、问题管理、变更管理、知识管理、容量管理;

- 对运维风险的分析和讨论,并制定应对方案;

- 绩效考核的汇报;

- 制定下月的工作计划。


新华三的咨询专家定期出席例行月度服务报告会,并邀请易盛公司管理层参加,对当前运维工作进行总结和分析,公司管理层、项目管理团队、项目实施团队、咨询专家多方参与和评估,对运维工作做出高效的回顾,并对存在的问题和风险给出相应的解决方案,形成一套基于数据和分析报告的运维持续改进机制。



绩效考核和员工团队建设

新华三运维管理团队对运维员工进行绩效考核评估,并根据当前工作情况完善和调整绩效考核参数,使之更有效的服务运维工作,并制定出团队建设计划和方案。


实施应急演练

按照应急演练计划制定月度的桌面演练和现场演练方案,并提交应急演练报告。



培训和知识共享实施

按照培训计划和方案组织实施能力提升计划,并进行考核和汇总。

知识共享安排在日常工作中,在每月的绩效考核中体现,并纳入知识库管理中。


给客户带来的价值

客户的数据中心运行风险降低

数据中心建设在正式投入生产前,其所有基础设施系统是否能满足运行要求的实际可用性,是否能满足IT设备运行的要求,验证测试是检验数据中心是否满足业务要求、设计指标,给出当设备在不同负荷时的数据中心各环境系统的数据,验证测试完成后提交验证测试报告和整改建议,降低了数据中心运营风险,以利于后期运维管理,确保数据中心的高可用性。


专家级能效分析,降低数据中心运营成本

数据中心专家级能效分析服务,通过测量机房的能源消耗,机房热环境测量,分析计算机房气流组织参数,计算PUE,CUE,DCiE等参数,预测未来每月PUE、年均PUE,并提供节能建议与评估报告。

数据中心专家级能效分析的价值,可以准确测量PUE值,了解能效水平,识别效率不足的根源,提供节能措施和节能投资回报分析,节省运营成本。


数据中心运维最佳实践和ISO9000、

ISO20000运维服务体系的融合

新华三数据中心领域的服务专家,在数据中心验证和运维领域有几十年积累的大量项目实战经验和丰富的知识体系。在项目实施中还参考了全球先进、成熟的数据中心运维管理架构模型,融合ISO9000和ISO20000服务体系标准以保证运维体系的完整性、先进性。


基于工具支撑的绩效考核保证了服务团队的生产力

绩效考核体系的建立,根据运维工作状况调整绩效考核参数,使之更有效的计量运维工作成效,知识共享也纳入绩效考核体系,根据每月的绩效考核,制定出团队建设计划和方案,培训计划和方案,提高和增加了服务团队的整体生产力,同时整体运维工作状况和团队及人员考核基于工具量化考核,提升了服务的可衡量性及考核的客观公正性。


多方参与的持续改进使服务能力不断提升

新华三提供了多层级立体支持的服务团队,除一线现场团队外,数据中心基础设施专家、咨询专家、工具支撑专家常态化参与到郑商所服务分析、回顾和改进的过程中,在运维过程中持续对数据中心运维理念和服务管理的最佳实践与客户方进行宣导和互动,配合客户方的数据中心管理计划和工作目标不断调整和优化运维服务,切实提升整体维护服务的水平和能力。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多