分享

11条关于数据中心运维的深度反思

 tuzhanbei2010 2020-02-15

11条关于数据中心运维的深度反思






1:如何看待AI技术的发展对数据中心运维的影响,以及人员组织架构的变化?
反思一:数据中心运维巡检值班机器人的使用和部署,效果是否达到预期作用
反思二:数据中心运维AI算法模型的进步是否可以减少对运维人员数量的需求
个人观点
  • 数据中心现有人员组织架构是经过科学,合理的人力资源及岗位职能需求设置,一种长期运维总结下来的经验,而且我们要保障在应急状态下必须的资源力量帮助我们快速响应和处理危机,保障服务SLA目标的安全性;

  • 值班巡检机器人的投入使用和部署是一种工具的应用,对数据中心值班人员的影响,与其谈论是否具有替代性,不如谈谈数据中心特定岗位的人员值班需求,比如:电气值班两人制度,两地操作确认制度;同时机器人的维护工作量也需求人员部署;

  • AI技术的发展和进步长期来看是会对数据中心的运维带来变革,然而目前来说,基础设施的设计是否考虑了AI的落地化应用?传感器部署和控制器件是否被设计到系统中?控制逻辑是否被应用于不同的项目设施中?


2:数据中心BA暖通控制是否能够实现智能化,并减少运维?
反思一:大多数数据中心运维管理部门对项目中BA系统表达着不满;对于PUE的贡献也并不像“胶片”里面描述的那样出色;
个人观点
  • 数据中心BA控制系统定义:暖通系统的运行策略检测,控制,响应系统;

  • BA控制系统的适用性对智能化运维是很有帮助的,更大的价值在于制冷系统整个系统的能效优化方面;

  • 关于一种技术或工具的应用对于是否减少运维,两个角度来思考:一方面是否将减少运维工作量降低风险;另一方面是否将减少岗位和人员部署配置;

  • 无论是那个技术或工具的应用,短期内能够减少人员配置,为时尚早;我们该反思这项技术或工具真的能够实现其描述的功能和价值么?如果供应商的回答是肯定的,并且愿意承担其带来的风险,我认为可以尝试一下替代人员的方案。


3:如何评价数据中心运维制度的是否有效管理了数据中心?
反思一:近3年来数据中心大量投入运营阶段,职业化运维经理人才难求,如何评价运维管理是否有效的管理数据中心?
个人观点
  • 运维经理的任职能力对于运维制度的管理和实施起决定性的作用;

  • 运维经理需要加强企业组织内的“向上管理”,沟通和协调企业资源的保障力度,做好管理中组织领导职能角色;

  • 制度关于数据中心安全运维的KPI目标,配合市场客户服务;有效的完成数据中心运维SLA服务协议内容和条款;

  • 基本目标【运维底线】:服务器及客户业务不中断;


4:如何应对数据中心运维人员3年期的职业疲惫态势?
反思一:数据中心运维人员3年期后呈现出职业疲惫态势,缺乏动力,安逸度日;长此以往会造成侥幸和麻痹大意的思想;
个人观点
  • 加强职业在职培训,提倡员工的多专业复合人才发展路线;适当的组织职业技能竞技比赛;

  • 企业管理及企业文化的深入,培养员工的精英人才文化,做好自我驱动学习;

  • 协调沟通,了解员工下一步发展方向,协作他在集团内相关岗位的调岗;


5:数据中心运维管理预算的制定基本原则是什么?
反思一:巧妇难为无米之炊,运维被大多数管理者定性为成本部门;未形成数据中心统一,有效认知和共识即:企业重资产和企业核心业务保障运行技术管理部门。
个人观点
  • 员工基本薪资及社保费用,运维管理基本办公运营费用;

  • 运维人员培训费用,安全防护和保险费用;

  • 运维应急管理备用金授权;

  • 非数据中心运维需求的费用,采用单独项目预算及费用模式,独立考量;


6:数据中心运维管理中基础设施运维和IT运维的界面是怎么划分的?
反思一:数据中心整个IAAS 中包含基础设施和ICT通讯硬件基础设施,清晰的区分不同专业人员工作的界面是首要工作;
个人观点
  • 首次上电过程界面:IT网维负责服务器的测试后,进入指定机架安装完毕后,基础设施运维负责检查并送电到pdu,逐一检查插孔的电源参数后,签字确认交付给IT网维主管工程师接收;

  • 日常运维过程中,鉴于基础设施运维尽力避免接触服务器的原则,PDU的状态检查归IT网路运维值班内容,列头柜巡检值班为基础设施运维值班内容;


7:数据中心维保人员和厂商第三方对设备的维护是怎么划分的?
反思一:未来趋势:将采用整体维保发包模式;
个人观点
  • 数据中心运维常规做法是自己配置维保团队,负责月度,季度或半年度常规维保内容,大修及年度预防性维护由厂商合同服务模式实施

  • 未来趋势将采用厂商或有资质的第三方公司整体维保发包模式;

  •       利:专业人士负责专业工作;

  •       弊:日常管理和响应中积极性,以及特殊情况下的团结性难以高度一致;


8:数据中心采用锂电池调峰储能新技术对于数据中心运维来说如何是好?
反思一:数据中心采用锂电池进行储能调峰应用,数据中心运维管理保持谨慎态度;
个人观点
  • 数据中心采用锂电池在我国使用调峰应用具有市场节能的利益驱动,技术方面正在逐步成熟;

  • 新技术对数据中心运维经理而言,运维应该坚守责任底线:数据中心业务不宕机。

  • 锂电池应用调峰势必对运维带来挑战,企业是否就有足够的激励政策敦促运维落实实施,管理的权,责,利需要平衡;


9:数据中心运维的职业发展路线是否缺乏竞争力,做运维工作想发展该怎么选择?
反思一:数据中心运维职业发展后续如何选择?有什么适合的发展方向?
个人观点
  • 行业发展依据处于高速发展阶段,运维作为数据中心能够长期了解其架构,项目特性,运维,以及业务服务的部门,

  • 打铁还需自身硬,自我学习提示是前提条件,如果个人职业发展的化,可以推荐向项目管理,运维管理,市场售前技术支持等方面发展;


10:集团化公司运维多项目数据中心的管理策略和优化方向是什么?
反思一:数据中心集团化公司如何高质量的管理多座数据中心
个人观点
  • 提升多个数据中心的统一性和运营卓越性要比管理一个数据中心困难很多。企业管理应对不同的设计方案,地方人力资源、社会文化和极端气候因素各不相同的多个现场、区域、以及服务于特定客户的项目,因此技术和组织复杂性会成倍增长。集团的标准化管理体系能够对这些困难了然于胸,树立框架,按照统一且可重复的流程加以解决,同时应对不同项目特性采取特定的管理方案进行优化和防范。

  • 卓越运营重在长时间保持纪律和统一,并不断适应环境变化。PDCA计划帮助关键设施团队调整卓越运营实践,为他们提供各个团队、部门和文化及标准的流程、程序与行业最佳实践,建立纪律和持续改进文化。


11:Pue是否应该被列为数据中心运维经理管理数据中心考核的标准?有好的建议么?
反思一:PUE是项目设计制定的项目运营目标,实际运营中pue受制于多种因素的影响:负载率,设备性能,项目特性等因素
个人观点
  • 个人并不建议将pue单独列为数据中心运维的考核指标;

  • 如果企业需要将pue评定为运维考核指标,是否也应该考量授权资金和成本的投入,比如盲板,无业务区冷通道地板封闭等实施人力成本;

  • pue与运维经理的挂钩后的激励奖励政策是否与承担的风险匹配; 


关于公众号:

【公众号:数字孪生未来】:主要关注数据中心基础设施的全生命周期的相关技术,动态,专业知识,经验的分享平台,同时关注数据孪生所带来的各种新型行业的原生驱动和发展,以及对于未来科技的探索与认知;

关于作者:

 Wake.Li   数据中心总监,交付2座3600机架规模的数据中心项目经验,现运营管理2300机架规模的数据中心,数据中心基础设施全生命周期的工作经验,拥有电气项目及数据中心领域超过12年的工作经验。机械设计制造及其自动化专业毕业,并取得武汉大学MBA工商管理硕士学位,数据中心取得uptime institute ATD设计专家证书,uptime institute AOS运维管理专家证书,经历数据中心uptime institute M&O认证项目。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多