分享

数据中心的容量管理

 yi321yi 2017-02-23

一、数据中心容量管理的必要性


数据中心的容量(Capacity)主要包括:空间(Space);电力(Power);冷却(Cooling)和网络(Network)等几方面。只有当这几方面个指标同时存在,才能说明数据中心的容量是可用(Availability)的。从实际运行的统计数据来看,很多数据中心的空间、电力、冷却、网络的能力并不匹配,某些系统的容量闲置高达30%。容量利用率的低下意味着高的运营成本和低的能源效率。现代数据中心的大多数业主都正在被容量利用率的低下而困扰。


数据中心的容量的损失往往是多种原因照成的。一般数据中心从设计、建设到运行要经历很多年,通常10年以上,称之为数据中心的生命周期。在设计阶段一般假设所有的IT设备利用率都是100%,而新的IT设备对电力和冷却的需求在前期设计是完全无法预估的。随着业务的增长 IT的需要是不断变化的,并且要在越来越的短的时间内做出IT部署决策,就产生了容量碎片化,这些碎片化的容量很难被重新利用,也就造成了容量损失。


当数据中心开始投入使用,我们需要把IT设备部署到数据中心里。大多数数据中心使用的IT设备设计不同的设备类型,如:从大型机、高中低端UNIX,X86平台,以及防火墙、负载均衡设备、交换机、网关、存储、存储交换机,不同设备间的功耗、发热量、重量和体积都不尽相同。而且随着新的应用系统的不断增多,日积月累的系统切换、升级,变更,导致后端服务器、网络设备与存储系统数量越来越多、数据中心规模也越来越大、管理和运行维护的成本也爆炸性地增长,形成“服务器蔓延”现象。这样不仅对机房的初识规划产生了不利影响,更对运行中的数据中心环境造成破坏,导致电力、空调的容量瓶颈,致使运维人员疲于修缮、优化改进系统,不仅导致数据中心的运维工作繁重,最严重的结果是既增加了运营成本,却又使数据中心的运维风险加大。因此,如何省时省力地管理众多厂商的异构IT设备对数据中心容量的影响,如何最大化降低风险、有效降低运维成本,是数据中心运维团队系统需要关心的问题。


与此同时,随着计算设备的更新换代以及高密度计算设备的广泛应用,能耗和散热等能源管理方面对数据中心提出了更高、更新的要求。另一方面,业务发展对数据中心资源的要求致使服务器和存储的数量大幅增长,而服务器、存储等设备快速的增长给数据中心在环境控制、电源与散热、空间管理等方面造成了巨大的压力。应用数量不断增长,对软件的需求也十分巨大,而且与日俱增,应用的增长速度已远远超过了服务器效率和性能的增长速度。同时,有研究结果显示,服务器功率密度每年增长4个百分点,对于大多数类型的服务器,每单位的热负荷都在不断攀升。如果不是数据中心的管理部门进行长期的研究、优化工作,则数据中心的能源和散热问题严重失控,解决电力和散热相关问题(电力不足、热量过高)是数据中心最繁重的工作。


数据中心生命周期的容量管理


图中显示了数据中心生命周期与容量的关系,其中下线表示了设计容量增长的状况,而上线则表示了实际容量增长的过程。这是由于实际业务增长对容量的需求与前期设计规划存在偏差引起的。这样就会导致容量损失。数据中心的容量不可能达到100%,但如果在生命周期中进行了有效容量管理,可以最大程度地提高容量利用率,减小损失。


由此可见,在数据中心管理10年甚至更长时间的生命周期中面对如此复杂、多样性的挑战。只有在设备上线之前,做好缜密的容量规划工作,并能贯彻执行,保证其容量管理能够满足业务增长需要。


二、传统部署方法的局限


在新的数据中心投入使用之初,总是有计划的基于某种方法来进行IT系统的部署。然而IT系统管理者,总是希望同一业务的硬件设备能够连续摆放,以便于他们进行系统的维护工作。但IT系统的管理者却并不明白这会对数据中心的容量管理工作带来困扰。同时,数据中心也承担着一定的展示要求,这对数据中心的管理水平也有着更加严格的要求。


数据中心的容量管理不但要考虑数据中心机房布局、空间的规划,同时需要考虑与电气规划、空调规划、弱电规划;不仅要考虑满足IT设备部署需求,并需要考虑未来IT部署方面的灵活性、并且能综合统筹;方便后期运维管理。如果场地内虽然还有空间,但已经无法再提供更多的电力了;因为场地设施的限制,无法部署高端Unix服务器和刀片服务器。即使运维时发现有更好的优化布置方式,但是由于设备已经上线运行,既不能停机变换位置,也不能搭建新的系统进行迁移。这些问题是数据中心中普遍存在的事实。传统部署方式是在数据中心任意连续部署IT设备,如下图所示。


碎片化的容量部署


对于图中所示,几乎无停机计划的大型数据中心而言,要解决环境温度、电力保障、网络线路及机架空间控制问题不是易事,实用的解决方法就是对设备机柜的物理布局进行重新调整,这个转变过程可能需要花费数年的时间,因为变动往往只能在技术更新换代时才能进行。如果解决不好,出现硬件故障的机率会大大增加,并有可能因散热问题而发生意外宕机故障。


三、DCIM容量管理的维度


1、实时容量监控


对数据中心的电源、制冷、空间、机柜、接线、承重和网络等项目的容量状况通过各种图形仪表展示出来,并可根据资产管理系统内的变更情况自动更新。可以快速查看使用了多少容量及还有多少可用容量,以实现更佳容量规划。


2、部署规划


DCIM系统应具备IT设备数据库管理功能,内容包括设备品牌、型号、尺寸、功耗、接口等主要信息,根据用户可定义部署原则进行系统自动部署可大大降低部署规划的工作负担,可实现智能搜索、放置和预留 - 通过该功能,可以在数据中心内找到最适合安装待添加设备的机柜。通过按照厂家、机型或其他条件搜索,可让您快速地找到可用空间、电源、网络连接及预留空间。通过这种方式,可以简化变更管理,同时可以针对未来IT设备的供应,进行规划。DCIM系统必须根据IT设备参数估算每机架的功率和热负荷,进行部署规划。规划中,需配置足够的电源,并留有足够的余量,既要避免因配置容量不足而影响设备正常运行,又要避免因留有余量过大而导致能效降低。在设计和建设高密度计算数据中心时必须评估各种设备的电源需求与热负荷,进行合理的机架配置。


3、空间管理


数据中心中空间的概念包括机房空间、配套空间、管线空间和机柜空间等几个不同的概念,机柜空间的管理是基础。机柜高度通常有18U、22U、27U、32U、37U、42U、47U、52U,在数据中心中以42U为主。由于机柜中除了部署IT设备外还需要部署布线系统以及预留空间,42U机柜在部署IT设备可利用的空间往往在26U-36U之间。


4、电力保障


分析、研究主机房的总体电力支持,其次研究每个PDU(配电列头柜)所能提供的电力保障,由此作为设备部署的基础条件。


5、空调制冷


根据前期CFD模拟可以得到数据中心内不同区域制冷效果的差异,得出数据中不同机柜可支持的发热量数据,由此作为设备部署的基础条件。


6、承重要求


根据地板承重和机柜电力配置,确定设备在机柜的摆放布局。机柜和设备的总重量不能超过地板总体承重要求,局部承重要求超出需要做相应的改善,尽量避免超重的设备集中在某一区域,对于大量的超重设备除做出支撑改善外,为了减少摆放的机柜和设备的重量对原楼板的承重能力而影响和破坏大楼的结构,需要在相关区域进行承重与减震设计。其次,尽可能将超重的设备部署到能够借用建筑结构优势的位置,如结构梁上、立柱附近等等,还需要尽力综合美观的要求分散部署。


7、网络


尽管网络是最容易灵活调整的制约因素,但是网络设备通常功耗较小,在制冷满足的前提下,要放在空调能力相对薄弱的地方,为减少末端步线的压力,节约线路成本,网络列头柜尽放置在离各设备柜最节约的位置,要考虑设备之间布线的距离,合理距离能够减少对布线的投资,也提高设备之间布线和通信的效率,重点考虑网络设备的布局。


容量管理的维度和颗粒度

其中,

       设计容量:考虑使用的安全等级冗余等情况下用户配置的限制容量。

       额定容量:设备制造商处得到的铭牌容量值

       预留容量:为未来实施项目保留的容量

       使用容量:实时设备或负载的利用容量

       剩余容量:考虑上述所有后需剩余的容量


四、IT设备部署原则


综合考虑场地的支撑能力,以及IT设备的扩容估算,针对未来数据中心的使用,在数据中心的IT设备部署方面,主要应着重考虑:整体观、高可靠性、标准化、灵活性、可实施性、节能与节省空间、可维护性、美观性等这样的IT设备部署原则,以有效利用数据中心机柜空间。


1、整体性


整个数据中心的设备部署应该从全局出发,综合考虑近期设备回迁的需求,并针对未来的扩容与新设备的规划做出预留。使业务分区合理分布,既体现分隔独立、相对集中但避免出现互相干扰现象,又达到协调统一、便于协同工作的目的。


2、高可靠性


数据中心的基础设施是IT系统中最重要、最基础的支撑,数据中心事故而引起业务系统停止服务,将造成严重的、不可量化的直接经济损失,并且会对声誉带来严重的影响。数据中心的规划虽然要权衡诸多方面,但是不迷失到某一个细节中而顾此失彼。保证数据中心可靠的7×24小时不间断运作才是数据中心运维的重中之重。


3、标准化


标准化即定义未来部署的方法,针对设备的部署提前规划布局,整体考虑时不仅要考虑局部IT设备的复杂要求,同时应该坚持整体规划的思路。大规模的IT部署,统筹规划标准化各区域的布局,借鉴业内的行业标准,如TIA-942数据中心通信基础架构标准,电子计算机场地通用规范GB 2887-2000,来制定的相应的标准规范。


4、灵活性


遵照标准化部署的同时,局部区域依然可以针对不同的需求来应对未来可能发生与原标准不一致的变更。综合考虑承重、电气、冷却、弱电等限定性条件,既能对新业务新要求的做出迅速反应,也能因为未来IT技术的变化做出预期的准备,而不会造成连锁反应,影响整个数据中心的规划,可以针对单个项目从最简单的供需结构改变为按需供应的结构。


5、可实施性


机房部署方案必须考虑现场条件的限制,现场条件的制约,是数据中心管理工作的难题,需要综合考虑承重、电气、冷却、弱电等限定性条件,又要局部满足特定设备的需求。基于未来IT系统部署的需求,针对实际的机械、电力配置情况,对部署方案加以验证。结合CFD模拟进行环境分析,可以验证部署的可行性,来获得数据中心未来实际运行的情况,并可了解当前机房或者设计方案的潜在问题,来得到优化数据中心的科学支持。


6、节能与节省空间


采取节能与节省空间的战略来管理数据中心,不仅仅依靠数据中心电气系统、机械系统的高新技术的采用,这样除了增加数据中心的建设成本,也会对数据中心的建设周期产生巨大影响,同时,过于复杂的技术不仅不会增加数据中心的可靠性,甚至会导致降低,且增加了未来的运维的复杂性。通过优化的部署方法,高效的布局统筹,不仅使业务系统可持续发展,直接的延长数据中心的寿命,并扩大支持能力。节省成本和充分利用空间的考虑,更是一种环保责任。


7、可维护性


经济高效地管理复杂的多厂商设备,又要应对不同的项目需求,同时还要与企业发展战略保持一致,导致后期运维的管理复杂性与日俱增。要克服这一挑战,唯一的方法便是IT设备部署规划时考虑部署后是可维护的。不仅要坚持之前几点原则,同时要消除局部设施的维护时可能会带来的风险,控制波及范围,DCIM系统应之后一些自动化管理手段(如RFID)。


8、美观性


数据中心的IT设备部署应该部署整齐,美观简洁,即不会导致监控系统有盲区危机数据中心的安全性措施,同时也是数据中心高效管理水平的体现。考虑未来设备安装、维修的通道要求,同时应考虑未来设备安置后整齐、整体的视觉效果。尽可能使参观、物流通道位于数据中心非重点区域,减少对其他设备区域的干扰。

(本文节选自《中国数据中心运维管理指针》,如需购买或转载请留下您的联系电话及邮箱发送留言至本公众号,将有工作人员与您联系)


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多