数据中心监控系统是一个软件和硬件结合的复杂性系统,本文将对监控管理系统的核心软件模块的组成、技术、应用场景等进行详细介绍,为系统设计提供必要的参考。 监控管理系统由四大系统组成:监控系统,运行管理系统,总控中心系统和基础服务系统组成。以下分别对四大系统中的核心模块进行详细介绍。 一、监控系统监控系统由两大子系统组成:信息采集子系统和信息处理子系统。1、信息采集子系统 为实现模块化设计,分布式部署,提高监控管理系统稳定性,信息采集子系统基本已经硬件化,即由一个硬件设备或者硬件模块,代替了传统的用纯软件方式来实现信息采集功能。 采集模块主要功能一是提供各种形式的接口,以便接入各种不同的监控管理对象;二是实现各种采集信息的协议解析;三是将解析后的信息按统一格式上传至处理单元。 2、信息处理子系统 信息处理子系统是监控管理系统中完成监控功能的核心子系统,要实时、灵活、准确地加工、运算、存储大规模数据,需要设计好几个关键模块:复杂事件分析处理模块、调节控制模块。 (1)复杂事件分析处理模块 复杂事件分析处理模块(CEP,Complex Event Processing)先捕获各种基础事件,然后分析整理,找出更有意义的事件(复合事件)。其中事件的分析整理,找出复合事件,正是CEP的核心,也是最困难的地方。复杂事件分析处理模块工作原理如图1,实时数据作为事件源接入事件处理总线,CEP引擎通过指定的规则,处理这些实时数据和缓存的历史数据,并通过事件处理总线将有意义的事件提供给事件消费方。 图1 复杂事件分析处理模块工作原理图 一个典型的应用实例是,在数据中心停电时,会引发大量的设备报警,通过复杂事件分析处理模块进行分析后,则可从事件潮中分析出真正的告警原因,将所有设备报警合并成一条停电报警。 复杂事件分析处理模块需要处理海里事件,处理压力大。复杂事件分析处理技术不同于传统的数据库数据处理,由实时产生的数据流驱动事件处理逻辑,在内存中完成所有计算,性能有数量级提升,能满足实时处理要求。复杂事件分析处理模块的事件匹配规则是提高处理的有效性的关键,使用中,当监控对象的逻辑关系发生改变时,必须维护事件匹配规则,以保证处理的正确性。 (2)调节与控制模块 总控中心系统对于影响到用户业务系统安全的设备都是采取的只监视不控制的原则,对于非核心业务和系统,如环境监测设备(如:新风机、灯光照明)、安防系统(如:闭路视屏监控系统、门禁考勤系统)等是可以接收控制输入的,可以利用这一特性,通过调节与控制模块对数据中心进行精细化、智能管理。 调节与控制模块工作方式有两种:一种是手动调节与控制,一种是自动调节与控制。 手动调节与控制相对比较简单,由人来进行判断、决策,形成控制指令,通过监控系统下发到对应的设备,达到调节和控制的目的。此时,系统的调节和控制完全依赖个人经验,随机性比较强。常见的手动调节与控制方式有远程开门,根据机房温度,手动调节每个空调的设定温度等。手动调节和控制不仅通过监控系统来完成,也可以通过电话、短信等方式进行操作,如可以通过电话开门、短信查询关键设备状态等。 自动调节与控制区别于手动的地方在于,将人的经验数据内置到了监控系统中。监控系统根据这些经验数据,形成调节与控制逻辑。当监控系统采集到的数据流入该调节与控制逻辑单元时,该单元形成预期的调节与控制指令,下发到对应的设备,从而实现了无人值守的自我调节。该技术最常见的一种应用是联动控制,如消防火灾联动门禁开门、门禁开门联动视频录像、消防火灾联动实时视频播放等。随着绿色数据中心的发展,该技术也逐渐应用到数据中心的节能领域,如空调群控技术就是这种思想应用的一种实例。 二、运行管理系统1、资产管理模块 资产管理是资产与配置管理的一部分。在实际工作中,通常把数据中心物理形态的资产包括IT资产的新增、入库、领用、上线(进机房)、下线(维修)、减少(报废、丢失)等的管理定义为基础设施监控管理系统的资产管理,即对数据中心物理资产的生命周期管理,当然此时的相关资产附带了一些与基础设施管理相关的基本属性信息。 2、IT资产管理范围与分类 (1)IT资产分类 IT资产按形态主要分为两大类,即软件与硬件。软件主要包括系统软件、工具软件、应用软件;硬件主要包括服务器、网络、存储、IT办公、场地设施相关设备。如图2。 图2 资产分类图 (2)资产管理的范围 资产管理范围除包括数据中心的服务器、网络、存储、IT办公、场地设施相关设备,系统软件、工具软件、应用软件(如图2所列)等资产外,还包括资产的与基础设施运维管理相关的属性信息如下:
(3)主要功能模块 基于资产管理所涵盖的范围,资产管理需要实现如下的功能:
(4)基于电子标识码的资产管理 常规的资产管理方式存在诸多的问题:
电子标识技术正是解决这一问题的关键,它读取速度快、无需人为干预读取数据过程等优势,可以进行快速的资产识别、盘点,实现准确快速掌握重要固定资产信息。 采用电子标识将资产实时监测与资产管理有效的整合在一起,从而达到实物信息与系统信息的实时同步一致。从而实现“资产全生命周期自动追踪管理”,为企业投资决策、资产合理调配等提供准确科学的参考依据。达到资产管理中“人、地、时、物同步管理”,有效降低和控制日常管理和生产成本,节约了每年投入大量人力物力进行资产盘点和无谓调拨的成本,避免了因各种因素造成的资产流失,提高了企业管理效益。 2、容量管理模块 容量是数据中心所能提供的能力。容量管理旨在将各类基础架构的处理能力或系统容量进行细分和量化,根据业务需求进行调整和配置,从而在满足主要业务需求的前提下实现资源利用合理化、负荷均衡、确保业务目标的达成。 基础设施监控管理系统的容量管理主要针对数据中心的电力、制冷、空间等基础设施的支持能力,即SPC容量管理。 (1)容量管理的构成 SPC容量管理主要包括如下几部分:
(2)主要功能模块 基于SPC容量管理所定义的范围,SPC容量管理需要实现如下的功能模块:
3、运维管理模块 运维管理是数据中心稳定运行的保障,也是数据中心日常管理的主要内容,它支撑着数据中心的故障处理、日常检修、定期巡检及人员值班管理等活动。运维管理模块是运维管理的支撑平台,为运维管理活动的展开提供了电子化支撑平台。下面是运维管理模块的简单描述和说明。 (1)运维管理的范围 一般来说,运维管理的范围涵盖如下的内容:
(2)主要功能模块 根据运维管理的范围和主要活动,需要包括如下功能模块以匹配和支撑对应的运维活动:
(3)能耗管理模块 随着能源价格上升,数据中心能耗成本在运营成本的比重随之上升,数据中心的能耗管理成为热点话题,“低碳”理念开始为数据中心管理者所接受与重视。为了推动数据中心节能减排,工信部《工业节能“十二五”规划》提出“到2015年,数据中心PUE值需下降8%”;发改委组织的“云计算示范工程”要求数据中心PUE降到1.5以下。这都需要做好能耗管理。 1)能效测评 数据中心能源使用效率PUE是目前国际国内比较一致认可的能效参数,定义为数据中心总能耗与IT设备能耗的比。云计算发展与政策论坛在2012年3月16日发布的《数据中心能效测评指南》中指出,能效测评除了考虑PUE,还需要考虑CLF(制冷负荷系数)、PLF(供电负荷系数)和RER(可再生能源利用率)等参数,这样能更为精细的反映了数据中心的能耗状况。 能耗管理的关键在能耗状况的监测和分析,通过监测获取真实的、连续的功耗数据,然后以这些数据为基础,按照科学的计算方法得到数据中心的能效数据。 目前,可以参照《数据中心能效测评指南》的要求进行能效测评。 2)能耗指标的监测和计算 为了实现能耗监测与分析,监控管理系统还应包含能耗监测与分析系统。该系统通过分布在数据中心供配电系统各重要节点的采集设备监测电量、电流、电压等参数,对采集的参数进行分析和统计,以报表的形式展示数据中心各能效评估域的能耗评估结果,供能耗优化和调整时参考。使用该系统不但可以了解数据中心能耗状况,还可以对能耗管理的结果进行横向、纵向比较。 图3 常见供配电系统示意图
上图为数据中心典型的供配电系统示意图,以此为基础,描述一下进行能耗监测时的一些方案。 在正常情况下,数据中心的电能由市电提供,因此数据中心总耗电的测量点应放在市电输入变压器之前。当市电故障情况下,柴油发电机产生的电力作为数据中心总耗电的测量点。如果是多用途机房楼,数据中心总耗电计算中,需要减去办公等其它耗电的测量值。 严格来说,IT设备能耗指标应该在各IT设备输入电源处测量耗电量并进行加总,但鉴于IT设备数量较多,这一方法将大大增加测量工作量和成本。因此,在实际操作中,我们一般在UPS输出或者列头柜配电输入处进行测量,将测量值之和作为IT设备耗电指标。即: PUE =(PM1 PM2-PM4)/PM3 在实际测量中,由于测量位置、测量仪表和共享电力等的限制,有时耗电量可能无法直接测量得到或测量数值不精确,因此必须通过一定的方法进行间接测量和估算;有文献根据IT功耗的测量点位置不同将PUE测量级别精确到1、2、3级,考虑到此种区分对PUE值影响极小,区分级别地测算PUE必要性不大。 对制冷设备能耗来说,采用水冷空调的数据中心通常与所在建筑的办公场所等共用冷水机组,为测量数据中心制冷所消耗的电能,可测量或估计数据中心和其它负载之间的热负荷比例(根据水流量、水温的设置等),然后根据比例将冷水机组消耗电能的一部分分配给数据中心。计算pPUE(局部PUE,见名词解释)的区域与其它区域有共享制冷系统时,也可采用这种方法进行间接测量和估算。 对供配电系统来说,在测量供配电系统能耗的过程中,如果指定的测量点难以安装测试设备,可根据相关设备的能效因子进行间接推算。例如,在PUE测量中,如果无法在数据中心变压器之前直接测量数据中心的总能耗,可根据变压器之后的实测值进行推算。 为了防止评价指标的计算误差过大甚至计算错误,根据这些指标之间的关系,可以进行验证。例如:根据PUE≈CLF PLF 1,我们就可以对这三个指标的准确性进行大致的验证。 能耗指标的数值受各种因素的影响,会随季节、节假日和每天忙闲时段的改变发生变化,为全面、准确了解数据中心的能效,需对数据中心能耗(用电量)进行了持续、长期的测量和记录,用于按月、季、年计算PUE。 三、总控中心系统总控中心系统中包含告警模块和大屏控制模块两个重要模块。 1、告警模块 告警模块在系统或者是监控对象出现告警时,能以短信、电话、邮件、声光等形式,及时通知用户,使故障得到快速解决。一般监控管理系统中会统一集中告警,因此告警模块一般提供开放式的访问接口,如SOCKET、Webservice等,以供监控管理系统中其它子模块调用其告警服务。告警模块的告警信息输出方式,往往提供(包含且不仅限于)短信、电话、邮件、声光等方式,还可以和企业的短信网关进行对接,通过统一信息平台发布告警信息。 告警模块作为信息交互的终端,其交互信息的准确性很重要。如果通过告警模块发出的告警信息过多,往往会将真正重要的信息淹没,导致重大事故产生。因此,输入到告警模块中的信息必须经过有效性过滤,也就是说在告警信息发出之前必须经过复杂事件分析模块的分析处理。复杂事件分析模块的有效性,决定了告警模块信息交互的有效性。 告警模块作为告警有效信息的重要输出载体,保证信息的目标可达性也至关重要。在告警模块运行过程中,程序的崩溃、网络故障、机器宕机等都随时导致告警信息的丢失,贻误故障处理的有效时机。因此,告警模块应具备容错机制,包括重发、断点恢复续传等。根据数据中心等级建设的要求,告警模块也需要进行对应的冗余设计。同时,由于告警方式的不可靠性,如电话有可能无法接通,邮箱服务器可能发生故障等,为保证信息的送达,一般还需要在告警模块中设计告警升级功能,如根据服务等级,对于高等级的事件,超时未处理的事件应进行各种条件的告警升级处理。升级处理,包括告警对象的升级处理,如值班人员A未拨通电话,重试失败后升级到值班人员A的主管;还包括告警方式的升级,从总控中心现场的声光告警,升级到短信、电话报警。复杂情况,还包括两种升级方式的组合。 2、大屏控制模块 总控中心是中大型数据中心运维团队进行运行监控值守的场所,运行维护值守人员主要依托监控管理系统的总控中心大屏展示的信息来了解、获知、分析庞大、复杂的系统和设备的运行情况。由于监控管理对象的复杂性,很多情况下,值守人员需要从不同维度同时了解、分析数据中心运行情况,这就需要从不同维度展示运行情况的多个显示屏幕。显然在一套大屏上从多个维度集中展示的监控、故障相关信息越丰富、越清晰明了,越有助于运维人员及时发现和快速解决问题。因此,在数据中心监控管理中心(或ECC)都配备有多个屏幕拼接组成的大屏显示系统。 大屏幕展示模块在数据中心的应用一般有两种方式:一种是采用专业的智能屏控系统,一种是采用简单的液晶屏组合系统。 (1)智能屏控系统 智能屏控系统也称多屏拼接处理器,是大屏显示系统的核心功能单元。大屏幕拼接墙系统一般包含屏幕控制软件和拼接墙处理器,来完成大屏幕的分屏、合屏等屏显功能。 智能屏控系统采用超大规模FPGA的纯硬件架构,以高带宽网络交换技术为手段,以基于像素的图像缩放引擎为基础,采用分布式的模块化设计,来实现大屏幕拼接墙灵活,方便,高性能的显示控制。 智能屏控系统支持即插即配、海量信号管理、支持DVI、VGA、HDMI、Video等信号源接入,支持多显示墙、多屏信号共享、多屏联动,支持自由拼接、单独开窗拼接、信号任意拖拽,支持图像任意缩放,跨屏,漫游,叠加,超大分辨率底图、超高分辨率动态图像的大屏显示,大屏回显录播、数字标牌上屏,支持多组显示方案预设,支持多用户,操控灵活等。 对于总控中心的大屏显示系统仅有大屏控制功能是不够的,为了使各屏显示的内容具有相关性、互补性与互动性,还需要监控管理软件本身的显示页面支持多窗口显示与显示联动控制。 智能屏控系统一般使用在中大型数据中心的总控中心。 (2)简易多屏拼接系统 对于中小型的数据中心的监控室,以经济实用为原则,不一定需要智能屏控系统。此时可通过多屏输出显卡和几个显示器完成一个小型的拼接墙系统。由于多屏显卡的输出端子有限,因此该方案一般支持的视窗是有限的。使用Windows管理液晶屏组合展示时,可以将多个液晶显示器映射成一个虚拟大液晶显示器,通过分屏展示模块完成业务视图的显示分割、布局;也可以将多个液晶显示器映射成独立显示单元,每个液晶显示器显示独立的业务视图,此时和大屏幕拼接墙系统一样,仅要求分屏展示软件模块能提供对应的多个业务视图窗口。 (3)大屏控制模块的应用 图4 大屏显示系统应用示意图
大屏展示模块根据业务需要,可以配置出多种不同应用场景的展示组合。 监控信息展示 如对于全局的监控视图,如全国联网的数据中心网点监控状态监控视图,可以设计成主画面,使用4个显示单元组合显示;其他的监控管理子业务系统使用1个显示单元显示,设计成从画面。这样对整个监控管理系统的全局到局部都能进行实时监控。每个监控管理子业务系统还可以设计页面轮询策略,轮流显示每个关键监控指标。一旦某个监控画面发生报警,则停留在该画面,并提示当前的报警信息。 同时,监控管理系统的主画面与从画面之间,从画面和从画面之间还可以设置联动,如对主画面中的某个业务子系统进行操作时,该业务子系统显示单元便切换到该业务子系统指标监控画面。也可以利用屏控模块的预设功能,设定多种监控显示模版,供使用者根据使用场景灵活调用。 告警信息展示与分析 当某个故障发生需要进行分析、会诊时,可用一个屏幕3D展示该设备的物理位置信息(有必要时再用一个屏幕展示其视频信息,实现虚拟与现实结合展示),一个屏幕用2D展示其逻辑关系信息(如拓扑关系),一个屏幕展示其故障详细信息,一个屏幕展示相关知识库信息或应急预案信息等。通过这种故障信息的关联展示,有助于快速分析定位故障根源,有助于组织运维力量准确处理,提高数据中心可用性。 管理信息展示与分析 当需要横向比较各机房模块的能耗,可以把各机房单元的PUE、CLF、PLF分别在不同屏幕上显示出来;当需要全域了解所有机房SPC容量时,可以把每个机房的SPC分别在不同屏幕上显示出来;但需要做运行分析时,可以把月度、季度、年度的运行情况、同比、环比情况、汇总情况分别在不同的屏幕上显示出来等。这些常见显示场景可以用预设功能固定下来以备需要时调用,有利于提高工作效率。 四、基础服务模块1、数据库模块 数据库模块根据存储的业务数据及实现技术的不同,主要分为三类数据库模块:实时数据库模块、历史数据库模块和配置管理数据库模块。 (1)实时数据库模块 监控管理系统根据对数据实时性业务要求的不同,会将业务数据分离到两类不同的数据库中,一个是实时数据库,一个是历史数据库。 实时数据库(RTDB,Realtime Database)是数据库系统发展的一个分支,是数据库技术结合实时处理技术产生的。实时数据库专用于处理带有时间戳的数据,其特点是产生频率快,并发量大,数据和时间有紧密关联关系。实时数据采集产生大并发和持续的数据流,传统数据库并不适合流式数据处理,需要精心考虑数据存储策略。实时数据库在监控系统中作为高速数据访问的缓存设施,提供实时测点访问、实时事件访问等服务。 实时数据库最大的特点就是及时性。实时数据库要保证采样的数据能及时的更新到实时数据库中,因此实时数据库的访问延迟时间不应大于采样频率。同时,实时数据库也通过一些特定机制保证实时数据库中新鲜的数据能及时被数据使用者及时获取。 实时数据库另外的一个特点是存储信息多样性。由于实时数据库数据处理的高速性,越来越多的对性能要较高要求的应用,都开始将实时数据库作为自己的应用缓存,以加快处理速度。 随着数据中心建设规模越来越庞大,要求管理的实时数据规模也越来越庞大。因此对实时数据库模块的处理性能,承载容量的需求也越来越高。 (2)历史数据库模块 实时数据库模块为实时数据计算提供数据来源,历史数据库模块则为后期的数据分析、统计、挖掘提供数据来源。 历史数据库是一种支持在线事务处理和数据挖掘的中间数据库,它负责将实时数据库中的实时数据流转储到中间数据库中,供日后分析处理。历史数据库应具备较好的数据容错性,便于数据备份和恢复;还应具备良好的数据访问接口,便于在此之上进行数据分析。 由于业务的发展和多变,历史数据库模块首先需要解决业务的变化的适应性。因此,历史数据库一般支持业务规则描述,通过预先定义的业务规则,抽取、转换原始数据,得到期望的业务数据。业务的变化,只需要调整对应的业务规则描述即可迅速的适应新业务。 历史数据库遇到的另一个挑战是大数据量的存储和检索。一个超大型数据中心的监控测点数以几十万计,如果不进行任何处理,要对这些测点数据进行存储,数据量每天以GB级别的增长。因此,存储前的数据压缩处理和数据库的合理设计,对大数据的存储和检索性能至关重要。 (3)配置管理数据库模块 配置管理数据库(CMDB)不是关系型数据库,也不是企业的资产库。配置管理数据库存放所有的软件和硬件(不仅仅是计算机软硬件),这些组件我们称之为配置项(CI)。配置管理数据库存放配置项和配置项之间的关系(Relation)。配置管理数据库是监控管理系统业务服务管理策略的核心,是配置信息的唯一来源。它保证信息的唯一性,准确性。 配置管理数据库模块是监控管理系统的灵魂,这个模型的建设的好坏,决定着监控管理系统的管理效率和有效性。 2、双机热备模块 根据GB 50174-2008对机房可用性等级的要求,对应高等级的数据中心监控管理系统应匹配冗余设计。双机热备模块则是监控管理系统的基础服务系统中实现监控管理系统冗余设计的重要公共模块。 (1)双机热备的分类及定义 双机热备使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。 从工作方式上来划分,双机热备有两种:active/standby和active/active。 active/standby也叫主备方式,当主机产生故障后,备机及时接管主机的服务。active/standby方式永远只有一台服务器处于激活工作状态,另一台服务处于等待非工作状态。 active/active工作模式,主、备机都同时工作,提供相同的对外服务。客户端访问其中的任意一台机器都可完成需要的业务,既可以实现简单的负载均衡,也可以将故障的切换时间降到最低。 (2)双机热备的选择 选择双机热备模块的工作方式,主要取决于运行在双机热备模块之上的应用服务的工作特性。如果应用服务允许同时运行工作,则active/active是个不错的选择。如果应用服务在同一时刻,只允许一个实例运行工作,则只能选择active/standby模式了。 |
|