分享

经典回放|史骏:DCIM在基础设施运维管理中的应用与实践

 yi321yi 2017-03-31

演讲主题:DCIM在基础设施运维管理中的应用与实践

演讲嘉宾:史 骏

北京卓益达科技有限公司技术顾问

演讲场次:“中国好DC”2017数据中心标准万里行 (上海站)



史骏:大家下午好。非常荣幸有机会把我们卓益达在 DCIM 领域的探索和实践给大家汇报。首先,先介绍一下 DCIM ,这个概念算是个舶来品,是从国外慢慢传入中国的。早几年如果大家去百度查 DCIM ,会得到两个信息,第一个 DCIM 是数码相机的存储文件格式,另一个是国外KVM品牌的计算机接口模块。而现在,大家都知道了 DCIM 是数据中心基础设施管理的简称。


Gartner 对 DCIM 的解释是把所有数据中心里面的基础设施,比如:电力、环境等加上IT资产统一地管理起来。建设它的目的在于去构建这样一个平台,让数据中心中的所有人员,包括基础设施管理、IT设备管理、管系统的、管网络的、管电的、管空调的都能在同一个平台上实现信息的互通互融,做到通畅的相互协作。


451Group 也有自己的 DCIM 模型,首先会有一个数据采集的模块,在这个模块里通常会见到类似动力环境监控系统、安防、视频监控等等的子模块,这些子模块通过各种探测器采集数据中心里面资源信息,如:温度、湿度、气流、气压、电力、空间等等。第二步,把采集来的数据统一存放到数据池,并对数据池里的数据做提炼和汇总,并通过各种形式的图表和报告呈现;第三步,则会根据相应的业务模型将数据进行关联性分析,以获取对数据中心管理有帮助和指导意义的分析和预测,对管理者的决策提供科学的数据依据;有了分析和预测的结果之后,就会进入第四步,利用这些分析预测的结果来指导管理者的管理行为,实实在在的促进管理水平的提升。而且这是一个不断循环的过程,收集、报告、分析、行动,最后才能够实现数据中心在基础设施管理方面的一次又一次地改进和优化。


通过上面两个著名的国际组织的定义,大家可以了解到,所谓 DCIM 总结起来就是基础设施的管理,而整个 DCIM 最重要的部分就是“管理”这两个字。那什么是管理呢?从国学的角度来说,管:一种类似于笛的管乐器,后泛指管乐器,同时通假字“官”,而官就是来规范和引导人们的行为的;理:玉石内部的纹路,指内在的客观和规律。总结起来管理就是要通过一个比较标准的,可行的规范,或者说是制度,来指导和规范人们的行为,告诉人们该怎么做。


那基础设施管理的对象是什么呢?我们总结了以下几个方面:首先它肯定是对数据中心所有的基础设施和 IT 资产做管理,这类对象我们称之为“物”;它们包含了各类基础设施,如:配电柜、UPS、机柜、IT设备、各种耗材等等。除了“物”之外,还有其他的对象,单单是“物”并不能成为一个完整的管理体系,这里面还需要人,因为所有管理工作都是由人来完成的,而牵涉到人就会考虑到如何进行人员的绩效评估,能力等级评估,是否需要去提升去培训,服务满意度等级,以及人和人之间的工作协同等等。在管理体系中把人和物结合起来,或者说关联起来就是“事”,什么叫做“事”?打个比方:如果这些基础设施比如一个UPS我不用管它,那就和我没有关系;如果我的日常工作需要对这台UPS做巡检,出了问题要进行检修,那“巡检”“检修”这两件事务就把我这个“人”和“UPS”这个“物”紧密的联系在同一个管理体系里面了,这是非常重要的关系,决定了我在整个数据中心管理体系中所承担的责任和义务。“事”可以包含有各种不同的事务,这将取决于不同的业务特点和管理制度。除了“人”、“事”、“物”这些比较明显的对象外,还有其他的因素会影响到数据中心的管理工作。首先是“时间”因素,不同的公司业务模式不同,那它的运维管理模型在时间维度上的表现也是不同的;其次还有“空间”因素,每个企业可能有不同等级的机房,不同等级的区域,不同重要等级的应用,各自属于不同的安全域,这些不同的场所、区域、应用的安全等级和安全策略可能是完全不同的,反映到数据中心管理角度来说,要做管理时所要遵从的规范和制度也是不一样的。因此,一个成熟的 DCIM 解决方案不仅要管数据中心里的“物”,更要把所有和物体相关的“人”、“事”以及和他们息息相关的因素都纳入到管理体系里来。


在 DCIM 领域,我们有十多年的探索和经验,并提炼出关于 DCIM 的方法论体系,包含四个方面:全面感知、深度分析、科学决策、规范执行。


首先是全面感知,现在大家都在谈论如何实现数据的采集,丰富的展现,这方面不论是我们还是其他友商都已经做的非常出色了。所有的数据将来自于几个方面,首先是 DCIM 的数据采集模块,比如常见的动环监测系统、视频监控系统等,通过它们可以获得大量的环境数据。第二个常见的数据源是企业里已有的 ITMS、CMDB 系统,通过它们可以获取资产数据,还可以通过一些更加先进的技术自动地读取设备的性能数据,如: CPU 使用率、功耗等等,获取资产的位置信息等。通过这些信息就可以实现数据多维度洞察、挖掘以及可视化的应用。


在全面感知领域通常会碰到很多的问题,比如:你的台帐信息可能是不准确的。很多客户台帐还是一个 excel 的电子表格,多的可能有 10-20 个数据项,有机柜的信息,资产号等等,而少的可能只有 2-3 个数据项。这个表格的关键是如何保证它准确性,比较常见的问题是如果你管理一个比较大的机房,管理团队肯定不止一个人,将会是一个团队;我之前做过一个项目,需要一份台帐来实施,我买到了一份宣称是上个月刚刚盘点完的最新版本的台帐,然后进机房实施,结果在现场发现了问题,当时要实施部署的这个系统,需要在柜上空出第 42-40U,结果实际上这个位置的设备依旧在,后来经过排查才发现其实从流程角度来说已经在 ITMS 上申请了,并执行了流程,以后管理员把台帐更新了,但实际的操作并没有执行也没有相应反馈,因此更新的台帐和实际是不相符的。后来在第二个机房也是碰到了类似的问题,当地的管理员也给了我一份台帐,并说两边的台帐信息是一致的,经过仔细的对比发现两者是有差别的,因为在上个月盘点完之后,这份台帐会有多个管理员修改,但是修改的并不是同一个版本的台账,所以不同版本的台帐之间必然不一致。还有一些检修方面的问题,经常会碰到客户的设备维修信息都没有做记录,只能查到设备有没有修过,但维修的原因、时间、费用、保固期有没有延长都没有记录。


问题还有很多,经常会碰到类似的情况,应用开发部门有新系统要上线,通过 ITSM 系统提了申请,当流转到数据中心时,管理员通常很难马上安排设备上架连线的工作。而是会先自己进机房查看一下机柜的空间,找管网络的同事去确认跳线架和交换机的端口是否可用,然后还要找到电工检查这些机柜的电力容量是否满足要求,当然还有负责暖通的同事也要在场,碰到过长的需要一个星期的时间才能确定设备部署的位置安排设备进场,效率很低,会影响业务的上线率和绩效考评。


所以一个成熟的 DCIM 反感需要有全面感知的手段,把管理所需要的信息收集起来然后做适当地展现。我们有做过很多类似这方面的案例,在我们实施落地的大部分项目里面都会有采集和展现的需求出现。我们通过智能的资产定位系统,精确定位数据中心里所有 IT 资产,并通过 LED 灯的不同色彩来展示机柜内的空间使用状况,这就是从物理层面去做的信息的展现。对于每一个 IT 设备,我们都会帮助客户做到多维度的数据挖掘,不仅仅是告诉管理员机柜内放了多少设备,还能知道设备放在哪个机柜的哪一个 U ,这个设备包含有多少详细的信息,比如:所属的应用,所属的部门;再深入可以知道这个设备的所有信息和电力端口的连线情况。比如:一个服务器的两个网络接口分别接在哪个跳线架的哪个端口,而另一端是和哪个设备相连,两个电源接口分别接的是 A 路电还是 B 路电,哪一个接口,什么类型的接口,下一跳是哪个动力列头柜,哪个配电柜,断路器,UPS;并且每一个节点都会显示当前的电力容量。如果部属的全套的智能配电系统,那在每一个节点显示的将是实时地电力信息,实现端到端的用电管理和容量预警。


有了这么多资源数据,就很容易做出数据中心内的容量展现,每个机柜的空间、承重、电力、制冷,甚至是光端口的使用率,并通过不同颜色的方式展现出来。对客户来说就很容易做出一些基本的规划:如果要部属一批设备,只要通过容量管理的功能检索一下,选出那些能提供所需要的空间、网络、电力、承重的机柜就可以了;而不需要亲自走进机房,一个个的查看机柜。


还有一点更加直观案例,就是通过微环境的监测来寻找冷/热点,微环境主要关注的机柜内的温湿度的情况,而非机房的大环境,一般在机柜内的上中下三个位置布署三个温湿探测器,可以只关注进风或者回风温度,也可以两者兼顾。这些数据都是实时采集,实时展现。非常方便客户实时地发现冷点、热点。


采集和展现算是 DCIM 的最基础的功能,而我们需要说的是 DCIM 并不是一个简单的工具或者软件,并非把这样一个系统交付给客户就 OK 了,关键在于客户如何把它用好,并且我们会通过这样的一个平台,把我们在运维管理领域积累的经验传导给客户,并根据经验帮助客户分析各种问题产生的原因,寻找隐患,因此深度分析时我们总结出来 DCIM 的一个重要的组成部分。


为了实现深度的分析,我们创建了一个基于分析的系统构架,从底层的子模块各种监控系统以及自己的探测器收集大量数据,统一存放在数据池里,通过我们自己设计的数据分析模型结合客户的业务流程特点,去做深度挖掘和分析;前端则是一个友好的人机交互门户。针对深度分析我们构思两种了状态,一种是有预定义的分析目标,在这种情况下我们只需要把底层所有采集子系统所产生的报警信息进行统一的收集、聚敛、分析、提炼就能获得我们所需的分析结果。第二类是无法明确定义的目标,比如,只是觉得可能存在耗电量不平均的为问题,可能存在整个气流组织不高效的问题,因此我们需要把各类数据进行综合分析、交叉对比、模型的匹配,并结合专家咨询服务,确定问题的原因和解决办法。


分享一个案例,某银行的一层机房配电数据图表中大约有 4600 多万条数据,通过对用电数据的分析发现每个机柜耗电量是有巨大差异与设计的不同,有了一个分析结果后就引起了管理员得注意,因为通过微环境的温度云图发现在一层机房经常会出现一些较热的区域,然后我们又调阅了微环境的整体趋势图和历史数据,从中我们发现了两种不同的情况,一些热点随机性的属于孤立现象,而另一些则是长期存在的;结合运维工作计划的记录可以发现那些随机性热点的产生规律和运维操作的计划有关联性,比如某次应用的统一升级会产生局部的过热;而那些和运维计划无关的长期过热,则可能是真的存在问题需要进一步排查;通过对一层机房的气流组织调查,我们发现造成热点的一个很重要的原因是气流组织的问题,机柜的气流封闭做的不好影响了制冷的效率;之后我们的专家为客户提供了相应的改进建议,基本解决了区域过热的问题。


分析完数据之后,我们就要说到 DCIM 是如何在辅助决策了,DCIM 系统要实现它的真实价值,就需要真正地帮助管理者来做决策以解决实际问题和实现战术和战略层面的意图。其中最常见的第一类决策支持就是资源规划,告诉管理者何时扩建数据中心最适宜,何时申请多少新的空间和电力资源最符合企业业务发展的需要,如何制定一个高效的部署或搬迁机会以确保业务的上线或恢复更快捷。而第二类则表现在对数据中心巡检工作的管理上,如何优化工作流程,如何提高工作效率,如何更科学的考评人员的工作绩效。这都是 DCIM 可以帮助数据中心管理者来实现的。


某银行新机房建设,最早是把 DCIM 放在第三期来做,但经过多次的交流发现 DCIM 所提供的资源规划功能对他们搬迁数据中心的工作非常有用,当数据中心基建完成后,所有的基础信息都是可用的,比如机柜的位置,机柜里的电力、空间、制冷、承重、网络链路、电源链路都是知道的。如果要往里面搬迁只需要通过我们的一个叫做资源规划这个功能就能实现整个机房级别的模拟部署,管理员只要提供所需的资源信息甚至只要提供将要部署的设备数量和型号,系统直接就能给出多套部署计划和建议,并通过 3D、2D 的方式展现,而且可以把这些不同的计划进行比较,以确定哪个更加合适。因此最终客户把 DCIM 平台放到一期上来做,所有的设备进场之前都会通过系统进行规划和设计,并导出工单给搬迁公司,服务人员只要按照工单进行工作就可以了。


有了分析有了决策,最后就是要考虑如何规范执行了,我们希望所有的业务都能有一个规范的流程去实施和操作,当然还包括制度的标准化问题,所有的制度都应该符合企业的业务情况,这是其一。其二,DCIM 的这样一个管理体系,如果单纯只是被当作一个系统来看,是有一些欠缺的,它应当是承载知识的媒介,比如我们应当通过它来传递和实践运维管理经验,让客户能分享吸收我们的管理经验,并从中受益。同时还需要很多的智能工具,比如如何能切合每个公司运维管理的业务流程?而不是死板的要求客户遵从系统内建的工作流程。从以往的案例来看,每个公司的流程都会有不同之处,比如说审批流程,审批的人,逻辑上回环的地方也不一样。


最后还要考虑的是数据中心运维的安全问题,不仅应当对运维操作的手段进行统一安全的管理,同时还应具备企业自身相对应的审计和回溯要求,这样的管理才能更加安全、可靠、高效且便于调整。好了,因为时间有限,我的演讲先告一段落,各位有什么问题可以及时与我们联系沟通,希望我们能助力各企业实现高绩效的数据中心管理,谢谢大家!

(以上文字部分来自于会场速记,如有纰漏敬请指正)


“中国好DC”经过2015、2016两年的全国推广,已经成长为数据中心行业的标志性品牌活动,被业界广为赞誉。CDCC持续奉献的一场场饕餮盛宴,始终坚持高水准的专家团队、专业化的听众、紧握产业发展脉搏,为中国数据中心行业的进步与发展贡献着自己的力量。第二站我们将携手众多业界大咖空降深圳,为深圳的同仁们带来一场极具震撼的技术盛宴。

时间:2017年4月21日 全天(注:08:30开始签到)

地点:深圳四季酒店3层四季宴会厅(深圳福田区福华三路138号,与中心四路交汇处)

参会方式一:复制链接http://event./599094517填写报名信息,会前主办方将统一发送参会编号,凭号码入场,名额有限,早报名者优先。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多