在数据中心运维方面,目前国际上存在一些认证,其中以Uptime的基础设施运维认证和数据中心运维关系最密切,其它的一些和质量以及管理方面有关的认证,也可以供数据中心运维借鉴。本章以Uptime的基础设施运维认证为主,同时也简单介绍了与数据中心运维有关系的其它国际认证,供读者参考。 一、Uptime基础设施运维认证 1.1 Uptime运维认证简介 数据中心基础设施为支持整体数据中心正常运行的一个关键系统,近年来有越来越多的人关注在如何有效地运维数据中心这个议题上。Uptime Institute成立20多年来,持续提供独立且技术中立的专业知识以及认证、咨询等服务。Uptime Institute在数据中心领域最为人所知的,便是其数据中心标准—Topology(拓扑)以及OperationalSustainability(永续运维),这两项标准也为全球数据中心产业人士所推崇,且也应需求发展出一系列的认证。 我们以一个简单的数据中心架构,来区分数据中心这些有关于运维的认证范围。
以上面这个简单的数据中心组织图来说,首席执行官管理数据中心总经理;总经理则管辖三个领域,IT、基础设施、以及数据中心实体安全。而Uptime Institute主要认证的部分即为数据中心基础设施的部分,也就是数据中心基础设施经理所管辖的工作范围。 1.2 Uptime运维认证框架 UptimeInstitute在数据中心的基础设施运维认证方面的标准可分为六大类,在认证中主要关注于运行及管理类别,分述如下: 人员配置和组织:这一大项主要着重在人员配置、人员资格,以及组织三个层面。 人员配置:主要确认数据中心组织中负责基础设施运维的人员,其配置是否满足运维要求,并确认其对应于各系统的专业分类及通报流程是否合适。 人员资格:查核对于人员专业的资格要求,包含专业证照或者培训要求等。根据数据中心等级要求不同,对值班人员的专业资格要求也不同。 组织:组织设计必须能完整呈现其运维团队各角色的职责与其他部门沟通对口。相关人员的角色皆已被定义,并能顾及数据中心整体运维的一体性,包括与其他部门的沟通和分工。 保养及维护:主要关注于基础设施维护及保养行为,以确保正常运行。 预防性维护计划:根据厂家以及自身需求,定义所有预防性维护(Preventative Maintenance)计划,且所有维护活动、日期及完成记录等,都必须要适当地被保存。相关维护质量监督也必须被有效执行,包含过程中以及完成后的质量查核。 机房清洁政策:须具备数据中心清洁政策及规定,且必须确实执行以及确保数据中心机房内的整洁性。 维护管理系统:有一套维护管理系统(纸本、软件或Excel管理等)来追踪所有维护活动,且对于设备的清单(含品牌、型号、生产年份、安装日期等)以及关键备件,必须被有效追踪及管理。 供货商的支持:需定义合格的供货商,且清楚说明与其的服务水平协议以及相关流程,厂商必须提供合格人员联络名单及流程。 延期维修计划:预防性维护的完成率需大于九成,且必须有相关追踪程序,以确保能在时间内完成。 预测性维护计划:有效的预测性维护计划。 生命周期规划:要有有效的程序来执行计划、排程,以及资金调度,以便更换寿期将届满的主要基础设施组件。 故障分析程序:需明确定义故障发生后续的处理记录以及分析根本原因,且需要找到发生原因并记录此次的经验教训。 人员培训:包含下列两个小类。 数据中心员工培训:清楚定义员工所需要接受的培训(包含所负责的系统及数据中心规则)。相关的培训文件或演练,需包含数据中心基础设施的相关流程及准则,具体为运维数据中心系统所需的全部政策、流程和程序;机房配置程序(SCP)(在正常运转的情况下如何操作基础设施);标准作业程序(SOP)(如何在正常操作的状况下更改基础设施的状态);紧急操作程序(EOPs)(在异常情况或紧急情况下,如何在现场进行控制并操作基础设施);程序的方法(MOP)(维护时的操作流程);维护管理系统的操作。相关的培训必须要有说明及记录。 供货商培训:需具备供货商所需要接受的相关培训,这些培训必须要有相对应的定义以及记录。 规划、协调和管理。 机房政策:数据中心必须要有清楚的正式书面政策和程序,包含基础设施操作及更改要求、机房操作点设施、配置变更流程、紧急操作流程,以及变更管理等。 财务流程:必须具备相对应的财务流程,以确保数据中心的运维资本以及对于基础设施的预算管控要有一个清楚的定义。 参考库:在现场提供操作或其它相关文件,并具备一空间能摆放相关报告、文件,以及其它资料以利查询需求所需。相关的文本必须要与最新版本具备一致性。 容量管理:须有明确流程管理IT设备的安装及移除,且定义出管理规则。另须透过流程,以固定周期的方式来定期预测未来空间、电力以及冷却需求的增长,并透过追踪机制来检讨目前的空间、电力以及冷却需求。最后须能透过一个有效的流程,来作出上述预测以及检讨的管理和分析。 负载管理:用流程以确保用量不超过最大负载,且保留有用于设备部件之间进行切换的容量。 操作标准点设置:基于持续营运风险和营运成本的考虑下,建立一致的操作设定点(如温度、压力、流量等)。 冗余设备轮巡:建立有效的交替使用流程,使冗余基础设备成为机房维修计划的一部分。 1.3 Uptime运维认证过程说明 作好基础设施运维不单单只是作文件化的管理,更主要是取决于人以及系统化的管理。因此Uptime Institute的运维认证,不单单只是一个僵化的审查过程或者是以财务稽核的角度来实施,而是通过有实际数据中心管理经验的资深运维专家顾问,透过运维框架以及标准,以数据中心行业角度来实际审查该数据中心基础设施运维的有效性。 在针对管理以及运维的认证审查过程中,主要的流程可分成以下几类: 行为:在审查过程中,对与运维和建筑特性相关的行为进行有效性的水平评估。运维行为,针对包含诸如人员配备、维修、培训、规划,以及各项活动的协调等事项,建筑特点;针对包含调试、建筑特色与基础设施相关的行为。认证审查不是为了符合某一行为而查找特定的进程或程序,它是一个结果导向的审查。基于这个观念,审查并不是稽核,不专门检查某些特定文件的存在,而是评估所有需用文件是否齐全,并且都在使用中,而且在需要时随手可得。在审查过程中,任何没有被找到或没有充分有效的行为,将被鉴别出来,并基于最佳实践提供建议。 现场实地审查:Uptime Institute的专业服务团队将主导评估的进行。一个典型的评估,通常需要花费两名顾问两天到两天半的时间进行现场评估。如果客户需要的话,可在评估结束后初步提供出简短的发现和建议事项。Uptime Institute的专业服务团队将根据观察,文件审查,并与数据中心的工作人员对话,确定所需要的行为存在,并是有效的。顾问们会尽量配合数据中心人员的工作时间表,以尽量减少对操作的影响。 有效性评估:Uptime Institute的专业服务团队采取了一种衡量行为有效性的方法,这方法是基于积极主动、务实施行和公告周知三项营运可持续发展原则发展出来的。所有三个原则,都必须证明存在一个行为,才会被认为是有效的。 积极主动:针对无论行为是否如预期,适当的流程和程序已事先准备到位。是否有一个持续改进的机制,以确保流程和程序总是被改善,并保持更新。积极主动原则的证据,包含针对所有现存和预期会发生的活动,有完整书面说明的流程,以及定期审查和更新的程序。 务实施行:评量是否所有的流程和程序始终都有被遵循。空有流程和程序本身,并不能提高营运的可持续性,除非有数据中心的工作人员始终如一地遵循所规范的方法。不论是谁执行,一件工作或程序总是按同样的方式完成,就是这个原则的证据。 公告周知:评量是否所有数据中心的工作人员具有知识和获取适用于他们可能被要求执行任何活动的所有流程和程序。例如,是否维修人员在进行被要求的特定活动时知道有可用于该活动的程序方法(MOP),在哪里可以找到它,可以取用它。 1.4 Uptime运维认证的结果 当数据中心在实地审查之后,资深专家会根据实地审查所得到的结果来判定是否通过对于运维认证的最低要求。当通过Uptime Institute审核,且足以证明该数据中心基础设施运维能力能达到国际水平时,Uptime Institute会授予认证,并于奖牌上标注数据中心名称、通过时间,以及有效时间。运维的认证有其时效性,主要在于决定一个数据中心运维的好坏并不在于其硬件水平,而是在于该数据中心在管理以及操作上的有效性。而这有效性有可能会随着数据中心的调整、人员调整,甚至是设备更换而有所变动。因此定期对于这项认证的重审以及更新,是有其必要性的。 1.5 Uptime运维认证的好处 过去数据中心领域多是着重于数据中心的设计以及建造阶段,也因此发展出一系列针对数据中心的标准以及认证。但若以全生命周期的观点来看待数据中心,运维才是占据数据中心全生命周期里最长的一个阶段。此外,根据Uptime Institute的数据中心事件数据库的统计,有约70%的数据中心故障异常是由于人为操作疏失所导致,主要的原因并非完全都归咎于设备或设计本身。 因此,在数据中心基础设施运维这一领域上,Uptime Institute所发展的运维认证主要可以带给客户以下的好处: 透过认证的申请,在认证前根据运维标准的框架,来检视目前其数据中心是否能够达成一个高水平的数据中心运维表现。也能够透过对于标准的了解,来改善自身数据中心运维的水平。 透过第三方专家的指导,了解自身数据中心运维的水平与一个高效运维的数据中心的差异。另可从认证报告中,了解自身运维的表现在哪些层面是好的,哪些表现是需要加强的。透过这样的认证方式,除了解数据中心基础设施需要改善的地方外,也能够透过这一方式逐步加强自身的实力。 通过认证,可体现自身团队在数据中心运维的表现足以达到甚至超越国际水平。 二、ISO 9001质量管理体系 ISO9001是由全球第一个质量管理体系标准BS 5750(BSI撰写)转化而来的,ISO 9001是迄今为止世界上最成熟的质量框架,全球有161个国家/地区的超过75万家组织正在使用这一框架。ISO 9001不仅为质量管理体系,也为总体管理体系设立了标准。它帮助各类组织通过客户满意度的改进、员工积极性的提升,以及持续改进来获得成功。 独立的第三方质量体系认证诞生于70年代后期,它是从产品质量认证中演变出来的。ISO 9001质量体系认证具有以下特点: 认证的对象是供方的质量体系。质量体系认证的对象不是该企业的某一产品或服务,而是质量体系本身。当然,质量体系认证必然会涉及到该体系覆盖的产品或服务,有的企业申请包括企业各类产品或服务在内的总的质量体系的认证,有的申请只包括某个或部分产品(或服务)的质量体系认证。尽管涉及产品的范围有大有小,但认证的对象都是供方的质量体系。 认证的依据是质量保证标准。进行质量体系认证,往往是供方为了对外提供质量保证的需要,故认证依据是有关质量保证模式标准。为了使质量体系认证能与国际作法达到互认接轨,供方最好选用ISO 9001:2008标准。 认证机构是第三方质量体系评价机构。要使供方质量体系认证能有公正性和可信性,认证必须由与被认证单位(供方)在经济上没有利害关系,行政上没有隶属关系的第三方机构来承担。而这个机构除必须拥有经验丰富、训练有素的人员、符合要求的资源和程序外,还必须以其优良的认证实践来赢得政府的支持和社会的信任,具有权威性和公正性。 认证获准的标识是注册和发给证书。按规定程序申请认证的质量体系,当评定结果判为合格后,由认证机构对认证企业给予注册和发给证书,列入质量体系认证企业名录,并公开发布。获准认证的企业,可在宣传品、展销会和其它促销活动中使用注册标志,但不得将该标志直接用于产品或其包装上,以免与产品认证相混淆。注册标志受法律保护,不得冒用与伪造。 认证是企业自主行为。产品质量认证,可分为安全认证和质量合格认证两大类,其中安全认证往往是属于强制性的认证。质量体系认证,主要是为了提高企业的质量信誉和扩大销售量,一般是企业自愿,主动地提出申请,是属于企业自主行为。但是不申请认证的企业,往往会受到市场自然形成的不信任压力或贸易壁垒的压力,而迫使企业不得不争取进入认证企业的行列,但这不是认证制度或政府法令的强制作用。 ISO9001质量认证体系在数据中心运维领域主要体现在数据中心运维管理方面,具体包括数据中心运维流程、数据中心运维团队、数据中心基础设施运维、数据中心客户服务、数据中心业务运维,以及数据中心运维质量监控等方面。 三、ISO 27001信息安全管理体系 ISO27001信息安全管理体系是国际标准化组织颁布的。该标准以英国标准协会(The British Standards Institution,BSI)制定的信息安全管理标准BS 7799为基础制定。BS 7799包含两部分:分别为BS7799-1及BS 7799-2。其中BS7799-2发展成ISO 27001,提供信息安全管理系统之建立实施与书面化的具体要求。 作为目前国际上具有代表性的信息安全管理体系标准,ISO 27001已在世界各地的政府机构、银行、证券、保险公司、电信运营商、网络公司及许多跨国公司得到了广泛应用,该标准重新定义了对信息安全管理体系(ISMS)的要求,旨在帮助企业确保有足够并具有针对性的安全控制选择。通过信息安全管理体系的建立、运行和改进,可以进一步规范企业相关的信息管理工作,从而确保企业云计算服务的安全问题。 ISO27001信息安全管理体系的认证,会在数据中心IT服务运维以及云数据中心的运维管理方面带来多方面的益处。 四、BS 25999业务持续性管理标准 BS25999标准由英国标准协会(BSI)制定,标准分为两大部分:BS 25999-1为业务持续发展指南,帮助企业建立相应的准备机制。负责该标准制订的技术委员会,由来自政府、企业界、学术界等各方面的专家组成,成员还包括一系列非盈利组织,如业务持续管理学会(BCI)、持续性论坛、紧急事件应对协会(EPS)、风险管理经理人协会(ALARM)、英国贸工部、内政应急事务办公室、金融服务机构、英国工商业联合会、公司董事学会、英国保险业联合会,以及小企业联合会等。 这一标准建立了业务持续管理的相应过程、原则和术语体系,提供了在企业内贯彻业务持续性理念、发展和贯彻业务持续管理体系的基础,还阐述了业务持续管理的生命周期,过程的评价以及更新文件系统、业务持续管理的选项,以及实施业务持续管理的方法和战略。 BS 25999-2于2007年11月正式颁布,对标准第一部分所要求的认证过程做出规范。第二部分的所有理念都秉承了第一部分的要求。 数据中心由于承载企业和客户的重要数据和业务系统,它的持续运行具有重要意义。如何确保数据中心在运行中断后迅速恢复运行,减少客户的损失,目前已经成为数据中心运维管理的重要组成部分。BS 25999业务持续性管理标准,为数据中心持续运行以及运行中断后的快速恢复提供了相关标准和保障。 五、COBIT信息系统审计标准 COBIT(Control Objectives for Information and related Technology):即信息系统和技术控制目标。成立于1969年的美国信息系统审计与控制协会(ISACA),于1996推出了用于“IT审计”的知识体系COBIT。 “IT审计”已经成为众多国家的政府部门、企业,对IT的计划与组织、采购与实施、服务提供与服务支持、监督与控制等进行全面考核与认可的业界标准。相应地,“注册信息系统审计师”(CISA)日益成为世界各国发展信息化过程中,争相发展的新兴职业和领域。作为IT治理的核心模型,COBIT包含34个信息技术过程控制,并归集为四个控制域:IT规划和组织(Planning and Organization)、系统获得和实施(Acquisitionand Implementation)、交付与支持(Delivery and Support)以及信息系统运行性能监控(Monitoring)。COBIT目前已成为国际上公认的IT管理与控制标准。 COBIT目前已成为国际上公认的IT管理与控制框架,已在世界一百多个国家的重要组织与企业中运用,指导这些组织有效地利用信息资源,有效地管理与信息相关的风险。 从数据中心运维角度上看,COBIT覆盖了数据中心运维的IT系统从分析设计到开发实施到运营维护的整个过程。对于分析设计,重点目标是IT与业务的需求,根据业务目标细化IT战略,确定待开放的IT系统,进行相应的系统分析和设计。在分析与设计这样一个流程范围中,比我们传统所说的信息系统的分析与设计要宽广得多,它强调的是IT的战略要符合业务的战略,任何信息系统的开发都应该与业务战略保持精确的校准。从业务战略的高度来分析和设计信息系统。提供这个阶段主要是考察组织的需求,同时根据这些需求设计合理的资源组合,设立合理的服务级别、目标,提供满足客户需求的IT服务。这个阶段对IT应用已上升到IT服务管理的阶段。主要解决下面的问题,为满足客户的需要提供哪些资源,这些资源之间的成本是多少,如何在服务成本和服务的效益间达到一个恰当的平衡点。在支持这个层面,主要是如何满足客户提出的IT需求,以支持服务的需求。COBIT上层是对IT运行进行外部控制和内部审计,以确保IT与业务实现精确校准,同时实现对IT应用持续不断的应用和改进。COBIT覆盖整个信息系统的全部生命周期,其视野是最为开阔的。 (文章摘自《数据中心运维管理技术白皮书》2014年07月,如需购买或转载请发送留言至本公众号,将有工作人员与您联系) 我是彩蛋!!! CDCC联合惠普IT管理学院,历时半年时间全新开发打造,正式推出运维工程师经典培训。数据中心基础设施运维管理基础培训通过系统的技术讲解,经典的案例分析,将会为学员带来巨大收获和有效帮助。 培训时间:2016年7月1日、2日两天 培训地点:北京市远洋大厦(详细地址邮件发送) 联 系 人:王影(班主任) 报名电话:01068002770 13911689223 |
|