分享

IT服务管理白皮书

 qrzhcd 2014-11-13
第一章 IT服务管理---挑战与机遇
        
        

        
        
        

IT技术日新月异,企业IT系统越来越来越复杂。服务器从Z系列主机到Unix服务器以及PC机分布于公司的各个部门,通过数以万计的网络设备连接在一起。同时在这些异构系统构成的硬件平台之上是庞大的企业应用系统,从SCM(供应链管理)、ERP(企业资源规划)到CRM(客户关系管理),无一不是支持公司业务增长的强劲动力和基础设施。如何保障IT系统的正常运行,从而保障公司的核心业务,已经日益成为一个CIO(首席信息执行官)乃至CEO(首席执行官)需要仔细思考的问题。

1.1 复杂的IT系统带给企业巨大挑战

让我们简单回顾一下IT系统发展中的三个重要技术:局域网络、客户机/服务器和因特网。局域网使公司部门和项目小组成员共享信息成为可能,而且公司的高层管理人员可以借助特定工具评估每一个公司部门的业绩,有助于迅速掌握公司的运营情况并迅速做出响应。随之出现了客户机/服务器模式,每一个部门乃至每一个项目组都可以使用自己的服务器管理本部门的业务,在公司的内部形成了大量垂直分布的信息系统,系统之间需要网络连接起来,IT系统的复杂性进一步增加。而因特网技术的出现,以及电子商务的成熟,使得企业可以提供在线交易,这在拓宽了公司经营渠道的同时,使事情变得更为复杂。设想一下,你可能在中国的北京通过一台PC机提交一笔交易,而该交易会通过网络传送到位于美国纽约的网络服务器,网络服务器会进一步与位于德国柏林的应用服务器和数据库服务器通信以便完成这笔交易。每增加一个环节就会增加一份出问题的可能性,同时客户对于我们的业务系统却提出了更为苛刻的可用性条件,公司业务的全球化使得我们必须提供24×7的可用性。如图 1所示为现在公司的典型IT系统构成。中间任何一个环节出现问题,都可能直接影响到公司的业务顺利进行,造成重大损失。如何管理并改善公司的IT系统,当今企业面临重重挑战。



图 1 典型企业IT系统示意图

1.1.1在复杂的异构环境中管理服务等级

NOP 为IBM 开展的一项调查表明,55%的大型企业有他们必须达到的服务等级,以支持国内客户,而42% 的大型企业有他们必须达到的服务等级,以支持国外客户。 但是,现在比以往更难实现这些期望的服务等级。随着时间的推移和企业的发展,IT 基础架构以更细的方式不断扩展。自定义功能专门为具体的特定用途而开发。IT 基础架构采用独立部署方法,如同企业中的高塔或“竖井”,每一架构中都包含来自不同厂商的组件。最初,这种方式还行之有效,但在今天的环境中,许多企业深受维护复杂的异构环境并使之有效运行这一痼疾的扰,这也是大多数企业面临的主要挑战。

1.1.2 在保持可靠性和可用性的前提下提高利用率

近期的一次Gartner 调查发现,全世界服务器CPU 中,大约有75% 的功效根本没有得到用。 造成这种巨大浪费的元凶正是工作量水平的变化(变化范围从以前的相对可预知到现在的难以应付),迫使公司准备过多的服务器。与此同时,这些复杂的系统不但要承担越来越多的服务,还要确保这些服务每周7 天每天24 小时都处于可用状态。电子商务目前得到巨大发展,客户要求越来越多的在线服务。服务要随时待命,并且以最快速度执行。如果您不能提供这样的服务,客户将会寻找其他提供商取而代之。客户已经不像过去那样始终保持忠诚。各企业都在奋力维护自己的业绩,竞争的态势也愈演愈烈。IBM 的一份调查表明,69% 的客户关心的焦点是确保基础架构的可靠性和可用性,以支持业务的正常运作。此外,IBM 估计约40% 的计算机系统停机事件是操作人员的失误造成的。这些停机事件造成的损失非常惊人(见图 2)。造成操作人员失误的原因是时间压力和当前系统日益复杂(令操作人员难理解)的双重结果。在这种状况下,如何保证可靠性和可用性的前提下提高利用率就尤为重要。



图 2工业企业计算机故障和数据丢失的成本

1.1.3 降低IT 成本

2003 年Morgan-Stanley CIO 的调查指出,CIOs 希望他们2003 年下半年的IT预算保持平稳。4 他们全年的期望是增长微不足道的1% 。CIOs 曾被明确要求降低成本,并且将工作重点转移到业务更少、更重要的IT 领域;一言以蔽之,就是要做到事半功倍。我们发现自己所处的经济环境要求所有企业全面降低自身的成本,其中也包括他们的IT 基础架构成本。所有人都在寻找能够事半功倍的途径。IT 主管总是在问下面这些问题:如何让当前的IT 基础架构发挥更大的功效?如何借助目前的IT 员工管理当前越来越复杂的环境?如何更好地利用已就位的IT 基础架构使企业在无需额外投资的前提下提供具有竞争力的产品?降低IT成本时企业面临的又一大挑战。

1.1.4 提高运作变化的灵活性和速度

业务的发展速率在日益加快,业务的灵敏性也备受关注。近期对IBM 客户所作的一次调查表明,60% 的客户认为,迅速对商机、竞争和法规做出反应是他们关注的焦点。但即便今天的企业已经开始进行运作改革,也是步履维艰,并经常采用手工方式。有时,回应较小变更的时间长达数天或数周。如果企业反应迟缓,则可能在竞争中失去重要的客户,同时由于失去商机而丧失市场份额,而事实上,只要他们足够灵活,就完全可以把握这些商机。企业呼唤更出色的系统管理工具,这些工具可帮助他们随需应变,并且将企业自身的业务规则融合到系统中。

1.1.5 管理不断增长的风险

在复杂的异构环境中管理服务等级、在保持可用性和可靠性的同时提高资源利用率、降低IT 成本、提高运作变化的灵活性和速度,这四大业务挑战合并在一起带来了第五项挑战:即管理不断增长的风险。这些业务挑战的十万火急自然而然地引来了业务风险。重要的东西就会带来巨大的风险。这是您不容回避的事实。应对这些重大业务挑战也令风险不断升级。例如,要在复杂的异构环境中获得服务等级协议,同时还要求降低IT 成本,这势必困难重重而且加大了风险。在提高运作变化的灵活性和速度的同时提高资源利用率更加危险。但也许全部挑战的最大风险并非应对这些挑战,而是风险竞争所带来的损害。

如何应对这些挑战,一个显而易见的答案就是采用系统管理帮助您实现一个随需应变的IT系统,使IT系统能够更好地支撑公司的业务增长和创新。

__________________________________\


第二章 IT服务管理有章可循 – ITIL简介
        
        
        
               
        

2.1 ITIL及其诞生的背景

借助IT技术的迅猛发展, 企业可以将其产品及服务快速投入市场. 传统的等级制的组织架构越来越难以应付不断快速变化的市场. 决策机制随着越来越多的决策权力逐渐下放给操作层人员而发生了变化. 在IT架构上, 异构和分布逐渐成为其主要特点. 一种新型的管理理论面向扁平的组织结构, 或者水平跨越等级制组织架构的流程(Process)势在必行. IT服务管理(IT Service Management - ITSM)的运行流程正是诞生于这个背景下.

ITIL(IT Infrastructure Library)诞生于1980年, 由英国政府发起, 委托CCTA(Central Computer and Telecommunications Agency)组织, 后成立OGC(Office of Government Commerce)专门负责英国政府和其它公共事业组织对IT资源的有效及低成本利用. 目前ITIL已经成为IT行业服务管理的理论基础. 在此基础上建立的非赢利性ITSM论坛(itSMF-IT Service Management Forumn)已成为公认的ITSM的权威性社区.

ITIL是基于流程的方法论. IT部门可用其检查是否用一种可控的和可训练有素的方法为最终用户交付所需的IT服务. ITIL合并了一套最佳的实践惯例, 可适用于几乎所有IT组织, 无论其规模大小, 或采取何种技术. ITIL被用来建立和交付服务管理流程; 这些管理任务可被某些服务及系统管理工具所简化, 例如IBM IRM管理模型及IBM的Tivoli系统管理软件等.

ITIL对IT服务管理实践中涉及的许多重要问题进行了系统的分析, 包括全面的检查清单(checklist), 任务, 程序, 责任等与任何IT服务组织密切相关的问题. 这些概念的定义也涵盖了大多数IT服务组织的主要行为. IT服务组织可以借助ITIL的指导建立和拓展自己的IT服务流程.

在ITIL的基础上, 各商业组织也建立了许多IT服务管理框架. IBM的ITPM(IT-流程模型)即为其中之一. 这些管理框架在市场上的不断普及, 是使ITIL成为事实上的行业标准的原因之一.

____________


第三章 IT服务管理规划与实施
        
        
        
        
        
        

ITIL提供了IT部门如何实施其运作方式的一套框架指南,涉及流程、功能定义及组织机构等。ITIL本身并非是一种从市场上一次购买后能立即投入使用的具体产品。在当前也没有类似ISO9000正规的手段,来论证企业的流程是否符合ITIL标准。目前只是对实施ITIL的技术人员有相关的ITIL论证而已。

在ITIL流程实施项目的规划时,清晰地定义项目的目标至关重要。如果只是由于行业趋势影响而没有从本身实际情况出发,一哄而上的项目极有可能失败。企业成功实施ITIL服务管理,成功的关键因素包括:
引进严格的项目管理制度:专门的项目小组,正规的项目内容控制、跟踪、分析等。同时确保必需的人力和物力资源供应。
全面、完整地了解目前IT服务现状。当前状况是整个项目的基点,在此基础上,确定什么需要变更?需要增加什么新功能?哪些无须变化?在项目正式启动前,进行可行性评估、检查、审计等。同时,基准点也有助于以后项目效果的评估。
拟定一个实际可行的、分阶段实施的计划:确定各项功能实施的先后次序。不能设想同时完成所有功能,一口气吃成胖子的期望必然导致失败。
IT部门需要通过培训、招聘吸纳新的技术力量:ITIL除了流程,还有相关的IT产品技术,可能需要专门的技术专家的帮助。但企业必须直接介入相关技术实施,不能完全交给外部资源负责。
企业必须意识到,流程再造可能需要IT工具的更新换代
ITIL服务流程项目是一个较长的实施过程。根据企业规模和项目范围,一般可能从6个月到18个月。

ITIL作为一种IT的管理方法之一,是世界上众多企业的IT服务管理实际经验的总结。为了适应和满足大部分的企业的要求,ITIL基本上只涵盖那些企业所普遍需要的和对企业最有效的做法,这些方法被称之为“最佳实践”。

ITIL主要侧重于企业IT管理的流程定义规划,而且ITIL本身只是要求企业应该“做什么”,而没有提供“如何做”。因此,对某个具体企业而言,应该根据本企业的具体情况进行大量的实际开发。

实践表明,一个成功的服务管理项目必须同时考虑和协调三个层面的问题:企业组织机构(Orgnization)、技术(Technology)、流程(Process)等。企业组织机构包括管理层、人员、角色、地域、企业文化等;技术层面指技术架构、项目管理及具体实施的产品;流程方面就是ITIL所涉及的领域。对其中任何一个方面的忽略,都将可能导致项目的失败。

前面的章节以ITIL为例,主要介绍了流程方面的考虑因素。本章主要讨论技术和企业组织等二个方面。

3.1 IT服务管理规划与实施的技术因素

任何一个流程最终必须通过适当技术手段具体实施后,才能真正为企业带来效益。IT服务管理是一个比较复杂的系统工程,根据客户IT环境的复杂程度不同,IT服务管理项目规模可以从简单的系统监控,到支撑随需应变电子商务的业务模式的随需应变运行环境,使IT运行环境能够根据业务动态变化而自动调整优化。

技术因素分析可从以下几个方面入手:架构设计、产品选择及项目管理等。

3.1.1架构设计

IT服务管理战略目标是公司基于业务发展需要对服务管理的期望。它是业务部门和IT部门两方面根据业务目标制定的。好的战略目标至少有四方面的作用:
明确IT服务管理活动实施的方向
促使有关人员向正确方向采取行动
协调不同人员的整个行动
简要有力说明高层管理者的意图

一个恰当的服务管理战略目标对判断IT服务管理项目的合理性具有重要作用,它有助于确保所实施的项目集中于既定目标。如果因为客户甚至IT管理部门的某些阻力而难于达成一致的战略目标时,不妨先实施一些耗时短、见效快的项目以使这部分人逐渐认可和接受这个战略目标。

同时,从技术层面,根据当前可用技术手段,确定项目实施的IT技术战略,包括所需的技术路线、产品的基本选型等。

确定IT管理战略目标和IT技术战略后,需要进行宣传和推广。这样做的原因是,虽然战略目标是指导和协调变革的有力工具,但是只有当利益相关者充分了解和认可后才真正起作用。所以为加强战略目标被了解和认可的范围和程度,需采用多种方式,比如简报、Intranet、海报、主题会议、小组会议,以及研讨会等。针对每类对象说明他们可能得到的特定利益。



建筑的个体特征要服从整个城市的整体规划要求,这就是所有城市规划设计部门的重要职责,否则会导致单个建筑完美,但总体布局效果极差的现象,就如下图中:


最后台阶被荒谬地安置在窗下面。

这就是局部服从总体的原理。在IT领域,这个原理同样适用。一旦企业整体的服务管理架构(也就是城市整体规划)-确定后,以后的单个服务管理具体小项目IT架构设计(单个建筑设计)要符合企业级的总体设计。否则尽管单个应用本身设计、运行得不错,一旦结合成整体时,极有可能无法满足应用要求。

3.1.2 建立端对端系统服务管理体系

企业规划系统和服务管理时,首先应该考虑业务流程和组织机构,而不是考虑选用什么样的工具等。网络工具只是管理网络;服务器工具只是管理服务器;桌面服务管理只是负责桌面系统;应用管理只是负责应用本身,导致同一个问题可能同时有多个支持小组人员在折腾。整个管理系统象个大杂烩,相互之间没有很好的集成,无法实现问题的快速诊断和修复。


为确保业务正常运作,需要根据所谓的“最佳实践”来调整流程和组织机构,提高跨部门流程之间的紧密结合,降低各流程中的环节数,以节省流程运行维护成本。一个集成的IT系统服务管理系统将有助于建立一个更加敏锐、高效的业务运行环境,在服务水平提高的同时降低IT投资成本。

为了开发端到端的解决方案,则必须全面了解当前IT环境的组织结构、管理流程及相应的支撑架构。一般关键的IT相关功能包括:
问题管理
变更管理
资产管理
服务水平管理
可用性管理


通过在上述流程中引入行业最佳实践,可以:
提高服务水平,以增加客户满意度和竞争力
快速隔离问题根源
问题自动解决
根据故障设备信息,精确定位设备位置
高效的问题处理机制有利于提高服务水平,和降低业务应用中断时间

3.1.3 服务管理工具选择

除了好的流程定义和实施队伍,选用合适的服务管理工具同样非常重要。是否需要工具?选择什么类型工具?基本上取决于客户对IT服务水平的要求以及企业的规模程度。

在非常小企业内,客户IT部门本身开发用于记录、跟踪事件之类的工具就够用。然而,对于规模很大的企业,则需要分布式、集成的服务管理工具,将各个被监控系统所产生的大量事件进行实时分析处理、及响应。通过自动化工具,可以实现核心服务管理功能自动化、

大量的原始数据的深入分析挖掘、趋势识别并采取相关措施。但工具本身不是最终目的,用户始终应该将业务需求、流程规范化放在第一位,在此基础上制定工具选择技术规范:

一般地说,选用专业IT服务管理工具软件原因有:
IT运行环境已经成为企业的业务核心,用户对服务要求比较复杂,但IT部门相关技术弱
IT基础架构非常复杂,涉及不同厂家的大量异构平台,而且经常发生变化
如何符合不断出现的IT服务管理标准

用户可以从以下几个方面评估:
除包含所有必需的功能外,满足80%以上IT系统运行管理自动化要求。
符合ITIL规范,二次开发要求少,数据结构及处理比较规范
客户干预、维护成本低
实施技术能够灵活适应业务变化的需求,是业务驱动,而不是纯粹技术驱动型

绝大多数企业都会或多或少采用一些服务管理工具。核心流程自动化的工具包括突发事件记录、跟踪工具,复杂服务水平协议管理等软件工具。还有自助知识库、网络管理、变更管理、软件分发、安全管理/审计、容量规划等工具。

除了功能方面,还应该考虑:
供应商的市场规模、信用度。
不但要考虑产品本身价格,还有后续升级和服务的费用。
产品是否灵活可扩充性以满足将来新的业务需求。
产品培训安排及费用考虑也会影响最终产品选择。

3.1.4 IT服务管理的项目管理

在任何传统企业内部推行全新的ITIL最佳实践都会遇到各类问题及阻力,企业管理层的全力支持是IT服务成功实施的根本保证。企业需要成立一个项目小组进行需求分析、方案实施,负责现有状态分析、目标定义及实施过程计划执行等。科学的项目管理能帮助项目在预定的时间内、利用预定的资源完成预定的任务。

IT服务管理项目管理包括:
项目立项
需求定义
项目实施阶段计划
项目风险管理
项目变更管理
项目效果评估

3.1.4.1 项目立项

项目说明书是项目获得企业管理层批准立项的最重要文件,它主要包括:分析IT服务项目的必要性及可行性,项目结果如何满足业务需求说明,还有项目所需的时间、预算等。

必要性分析可从业务、IT技术及IT部门本身等三个方面。

首先,从业务层面,信息技术在业务中已从单纯的业务“支持者” 转变为 “驱动者” 甚至为 “管理者”的角色。IT已不再是公司或组织的一个独立部分,而是作为公司整体业务的一部分。企业业务就越来越依仗于基础IT系统提供的服务水平是否合乎要求。其中任何相关IT环节有问题都直接导致业务失败,生产率降低,影响产品市场占有率和客户满意度、销售收入和快速反应能力,甚至导致公司瘫痪,这对IT系统的管理面临更大的挑战。

企业应该考虑如何对业务、IT系统进行流程再造,二者之间如何通过服务水平协议实现融合。这些目标的实现依赖于对信息技术的良好管理。

其次,从技术上是否必要。技术的快速发展的应用已经使IT系统成为所有业务系统的核心组成部分。IT部门必须全面深入地了解各业务运作流程和IT在这些流程中所起的作用和局限性,更频繁和更迅速地进行技术变革;同时要保证当前的服务质量,以及控制和降低IT实施和运行成本。

再次,公司IT部门自身而言,为满足业务持续变革过程中对IT可靠性、可用性和安全性等方面的不断增长的需求,IT部门不得不相应提高IT系统服务提供和支持能力。但传统的IT组织形式已经很难满足这类要求。因此IT部门必须随着业务变革而调整自己的角色和定位。

IT服务管理的可行性分析,主要是关于所需成本、可带来的效益以及实施时可能遇到的风险等。指计划、实施和运作IT服务管理流程的成本,主要来源于人员(包括咨询人员)、新添置的软件、硬件和必要的设施和场所。

实施ITSM的效益从整体上可以分成5类:商业价值、财务价值、员工获得的好处、创新价值和内部利益。一般地说,IT服务管理首先应具有商业价值,不管这种价值是直接还是间接的;其次也应该考虑利益相关者。虽然不同的组织可能实现的效益是不同的,但每个具体的效益都可以被量化的。

在IT服务管理的计划、实施和运作过程中的每一个阶段都可能碰到一些困难和问题,包含一定的风险。涉及组织、技术等各个因素。

3.1.4.2 项目需求定义

项目内容定义直接决定项目的实施时间、资源需求等。在很多情况时,客户本身需求可能不是非常清楚。

项目内容(Baseline)= 客户所有需求(Requirements) – 非本项目范围的需求(Exclusions)



最终项目内容是项目最重要的文档之一,必须经过用户和实施厂商的充分分析、协商、研究,并需双方签字,以合同形式加以认可。随着项目的推进,项目的实际内容可能会发生变化,属于项目变更管理,必需通过双方正式书面同意才生效。

3.1.4.3 项目效果评估

当项目结束时,应该及时总结项目管理中的经验教训,以便以后经验积累和分享。项目结束报告一般包括:
项目预定目标的完成情况achievement of the project's objectives
完成各项计划情况(预计时间和费用与实际发生的差距)
项目过程中,对原始计划和业务规范的影响
变更情况和引起的影响分析
项目结果的质量评估

3.1.4.4 项目产生效益评估

当项目完成并投入使用后一段时间后,需要评估新项目对企业业务产生的效益,各项项目预期目标的完成状态,以及是否引发新问题等。如果需要,再确定是否需要采取后续措施。

流程处理的质量指标是衡量IT服务管理水平的核心,用于衡量IT部门工作对企业业务的贡献以及工作效率。根据服务水平要求,可有流程相关和一般性等两类质量指标。
IT服务管理的一般性质量指标应该包括:
客户满意度
员工满意度
工作效率
工作的有效性

企业可以根据本身具体情况决定如何收集上述信息。

对于流程相关的质量指标,可以参考ITIL资料中的对于各流程的说明。

3.1.4.5 项目实施阶段计划

根据企业规模不同,IT服务管理项目可能设计大量任务及子项目。需要通过工具和分析,列出项目所有预期输出,将整个项目分解为大量有具体输出的、可管理的、可衡量的任务列表。

项目任务列表分解应该注意以下方面的问题:
尽量收集所有项目有关的材料,如项目内容定义、各类方案书等
参考相近项目的任务列表
先创建比较粗略的列表,然后逐步完善到可管理、跟踪的详细程度的列表
尽量细化列表,但无需具体细节
邀请与任务相关人员共同设计
应该考虑项目管理和审计的任务
与相关项目责任人员进行任务列表确认
将最后的列表内容规整为一个标准的项目任务典据

3.1.4.6 项目风险管理

风险是一种可以对项目产生负面影响的可能性意外事件或非计划中的可能性。任何项目都有风险,风险管理流程可以识别、评估、规避、监视各类风险,它是贯穿整个项目始终,是项目管理的重要组成部分。通过一系列前瞻性、相互配合的流程和行为,可以较好地掌控、降低风险带来的危害。



风险评估根据发生的可能性、对项目的影响二个方面考虑,可以被定义为不同等级,例如高、中、低等级。项目组根据风险等级,决定处理对策和安排相应资源。

风险解除流程包括建立风险消除手段、行动计划以及定期流程评估。一般风险解除的方式有:
放弃:已经意识到这个方案可能的风险,决定放弃该方案
忽视/接受:已经意识到风险,但愿意接受风险发生后所产生的后果
补救:已经意识到风险,并采取对应措施,将后果的负面影响降到最低水平
建立应急基金:准备一笔应急基金,一旦风险发生时,动用该基金采取补救措施
转嫁:已经意识到风险,将把风险转嫁给其他方面

3.1.4.7 项目变更管理

尽管所有项目都有严格的任务内容定义,但客观上,在项目进行中,客户的需求会发生变化,项目变更管理将有效地跟踪、管理各类变更。

变更管理包括:变更流程控制、变更申请表、变更审批、变更记录管理等。



只有变更授权人员可以接受、拒绝、延后、协商变更请求,所有变更请求也必须以正规的书面形式申请和记录跟踪,一旦变更被批准后,立即更新项目说明书和项目内容书。

__________________________________


第四章 服务管理产品介绍
        
        
        
        
        
        

4.1 服务管理的功能结构和产品分类

在一个完整的IT服务周期里,服务提供(Service Delivery)和服务支持(Service Support),是用户可以切实体会并接触到的服务实体。服务提供(Service Delivery)定义了在节约成本的前提下,提供给客户的IT服务内容。服务支持(Service Support)则定义了IT部门对提供的IT服务所进行的支持和维护工作。



通常说来,用户或者服务部门总是根据一定的商业目标定义出IT服务所需要提供的功能和实现的服务水平。这具体体现在应用程序管理,IT资源管理,安全管理,软硬件资源管理等方面。实际上,服务管理所需要完成的工作涉及到企业IT运行环境的几乎每一方面。众所周知,随着IT技术的进步,以及企业信息化的发展,现代企业的IT环境已经成为了比企业组织机构更为复杂的一个独立环境。而企业的组织机构和运作流程的复杂度增长,又对IT部门所提供的服务提出了更高,更复杂的要求。所以随着企业规模的增长,总是伴随着企业IT环境的复杂度增长。从这个角度来说,服务管理要做的工作,以及服务管理所需要实现的功能是如此之多,以至于难以逐一列举。从另一个角度来说,尽管服务管理的职责日益复杂,但每个复杂工作总是由若干更为具体和简单的工作所组成。因此服务管理的复杂功能也总是由若干更为具体和简单的内容组成。我们不妨把这些内容称为IT服务所提供的“核心功能”。核心功能的实现,以及多个核心功能的组合,也就完成了复杂的企业IT服务管理工作。

每一个IT服务所提供的核心功能总对应着一个相应实现一个或多个该功能的IT产品。而随着IT基础技术的不断进步,也不断产生新的核心功能需求以及新的IT产品。但是,只要能够分析清楚IT服务管理的核心内容也就能够理清纷繁复杂的服务管理产品后面所隐藏着的脉络。

服务提供所包含的核心功能主要分布在:
服务水平管理(Service Level Management)
可用性管理(Availability Management)
能力管理(Capacity Management)
业务持续性管理(Business Continuity)
财务管理(Financial Management)
等环节中。


而服务支持这一过程所包含的核心功能主要分布在:
配置管理(Configuration Management)
事件管理(Incident Management)
问题管理(Problem Management)
改变管理(Change Management)
发布管理(Release Management)
等环节里。



4.1.1 服务水平管理(Service Level Management,SLM)



IT服务水平的竞争也许是现代IT企业竞争中最激烈的一种。这种局面是由于客户的快速成熟所造成的,他们总是希望能在购买商品的过程中获得更好的服务,而IT本身就是服务的一部分。

对很多企业而言,IT服务水平管理并不是一个新的服务种类。服务水平管理定义了在节约成本的前提下,用户所能得到的各种IT服务的标准,如何监控IT部门所提供服务的质量,以及评估服务水平的手段等。一个常见的服务水平管理例子如:IT部门承诺在不追加投资的情况下,公司的CICS交易管理服务器可用率达到95%(Availability Rate >;= 95%)。

一个地区的两家银行之间不可避免的存在激烈的竞争。而现在,对客户的服务不仅仅限于舒适的环境,亲切的笑容和温和的话语,客户可以直接通过ATM机进行交易而不接触具体服务人员。在这里,IT也成为企业服务的一部分,客户的流失可能仅仅因为另一家银行的ATM机的交易速度比你快几秒。如何提高竞争力?鉴于IT设备和IT人力成本的昂贵,盲目的设备和人员扩充可能更象是饮鸠止渴。因此,企业必须找到行之有效的管理方法,使现有的IT设施发挥出最佳水平,保证为用户提供最有效的服务。这就是服务水平管理(Service Level Management),即SLM。

SLM是一种严格的超前方法论和处理程序,它被用来保证在有效的资金利用率下,能够向所有的IT用户传递足够级别的服务,以确保业务能够得到相应的优先权来优先处理。SLM可使IT部门根据“购买”服务的业务部门对不同的服务类型、成本和服务水平的要求,来提供面向业务和企业范围的服务。SLM需要IT机构充分了解它所能提供的各种服务,以及相关的优先权和业务重要程度。

从这个角度出发,SLM产品应该具有四大功能:监控、报告、分析和管理。企业现在要实施SLM比以往简单得多了。在过去,收集有用的数据和产生SLM报告是一件进展缓慢和费时费力的差事,有时还要编写定制的程序,购买昂贵的数据收集产品,结果却收效甚微。现在这一情况大为改观,一些新产品所提供的向导程序使数据的收集处理过程、不同数据源间的数据合并和数据关联变得非常方便。

IBM公司早在90年代初期就对IT服务水平管理给予了高度的重视,并始终在这一领域保持着领导者的地位。IBM的服务水平管理软件IBM Tivoli Service Level Advisor深刻体现了IBM公司在IT服务水平管理方面的思想,是辅助企业进行IT服务水平管理的利器。

下图描述了IBM Tivoli Service Level Advisor的系统结构。IBM Tivoli Service Level Advisor可以划分为SLM服务器,报告服务器和管理服务器,可以完成包括数据收集,策略规划,制作报告,服务评价,服务水平升级等各种服务水平管理方面的功能。



4.1.2 可用性管理和安全管理

可用性管理(Availability Management)和安全管理(Security Management)有着紧密的关系。从它们所涵盖的功能范围来看,我们可以理解安全管理是可用性管理的一个子集。而从实际应用的角度来看,系统软硬件,企业业务应用系统以及企业业务数据的安全管理深刻的影响着企业IT环境的可用性。


4.1.2.1 安全管理

在目前的IT环境下,“安全管理”已经成为一个不可回避的话题。一个有效的安全管理解决方案。可以帮助企业降低管理成本,提高业务系统运行的安全性,帮助企业减少收到攻击或者过失操作而带来的意外损失。

从可操作的角度来看,安全管理可以划分为:

具体的用户管理,访问控制以及全局的企业风险管理和监控。

在当前复杂的IT应用环境下,用户的管理已经成为了一件复杂的工作。下面是一个常见的应用案例:

一个新员工加入公司,他需要有A,B,C,D,E五个系统的权限。在不同的系统上,他所拥有的权限大小也不一样。如果同时加入公司的不是一个员工,而是10个员工该怎么办?
如果这五个系统又不幸分布在不同的计算机上,这又该怎么办?
如果用户在不同的系统上有不同的用户名,那当用户需要同时访问多个系统的时候,是否需要反复输入不同的用户名和密码?
类似的问题还有很多,实际上,用户管理和访问控制是一个老生常谈的问题。但当企业的IT架构越来越复杂的时候,当新系统和旧系统交错存在的时候,这样的问题是服务管理员抹不开的心病。

电子商务发展的快速步伐意味着更多的企业系统、应用程序和数据可在互联网上访问。其结果是,业务面临着来自于多方面,不仅是企业外部,也来自企业内部:病毒威胁、非法访问、拒绝服务攻击和其它形式的入侵,这些威胁直接瞄准电子商务应用、网络、托管基础设施、服务器和用户的桌面系统。

在这个高度竞争的世界里,客户的要求也非常苛刻,他们期望得到公司的最高质量服务、信任和安全。因此,电子商务的实施应该是安全的,同时允许业务交易的保密性,保护业务运做的完整性,保护客户数据,并且提供全天候的访问。精心打造品牌资产的商家都了解,在互联网世界,品牌资产有可能被一次攻击快速地腐蚀或破坏掉。

因此,从任何一个角度来说,只要企业希望安全的生存,就必须对风险的管理有足够的重视。

一般说来一个优秀的风险管理软件应该具有这样一些特点:
提供了一个描绘出所有安全弱点的企业中央视图;
能够极大地减少对安全软件收集的实时数据进行人工分析的时间;
能够通过强大的决策支持和报告功能增强对威胁的防范能力;
能够采取基于规则集的自动纠正措施;
能够时刻监控企业可能遭到的各种攻击情况;
能够高度客户化(以反映每个公司独特的配置、访问点和通信流模式);
跨平台和基于开放标准;
能够通过扩展来支持快速增长?是否能够提供高可用性;
方案供应商拥有全球性的资源和研究设施,以主动维护自己在安全研究和开发(R&D)领域的领先地位
最后一个特点是非常重要的,因为敌意攻击的手段和方式都在日新月异的变化,如果方案提供商不能在这场角逐中始终保持领先地位,则会让客户的应用系统处在一个危险的境地。

从这些角度出发,类似IBM这样应用经验丰富,研发能力杰出的公司才是客户应该选择合作的对象。

下图是IBM公司实现安全管理的产品家族结构:


这些产品及其所具有的功能如下:

IBM Tivoli Access Manager for e-Business
完成对企业Web应用的保护工作,包括SSO在内。

IBM Tivoli Access Manager for Operating System
完成对UNIX、Linux操作系统的保护工作

IBM Tivoli Identity Manager
统一管理企业的用户,包括用户ID和用户密码的统一管理

IBM Tivoli Directory Integrator
同步不同应用的用户数据

IBM Tivoli Directory Server
标准的LDAP目录服务器

IBM Tivoli Risk Manager
集中管理企业所有的安全事件

4.1.2.2 可用性管理

系统的可用性管理核心功能可以划分为:可用性环境建模,可用性监控和可用性历史数据分析三大类。

可用性环境建模是指在搭建IT应用环境的时候就已经考虑到可用性方面的因素,从而使建立的IT系统在基础结构上就具有较强的高可用性。例如,在搭建一个新的存储局域网(SAN, Storage Area Network)环境的时候,用户完全可以利用可视化的工具,充分考虑到整个SAN环境中需要重点保护的环节和容易出现故障的环节,并对症下药设计出整体具有较高可用性的SAN解决方案。IBM公司针对用户这方面的需求,提供的软件产品是IBM Tivoli Storage Area Network Manager。

系统的可用性来自于对系统运行环境和运行状况的了如指掌。因此,“监控”也就成为了保证可用性的有效手段。实际上,随着IT基础设施复杂程度的升高,已经凸显了对IT资源进行监控的重要性。在现代企业的IT环境里,监控系统的作用早已超出了简单显示网络、操作系统以及计算机硬件设备的工作环境和工作状态的范围。数据库、中间件解决方案和业务应用软件业也成为了监控的目标。而且,监控系统不仅是要时刻掌握企业IT环境的健康状况,更重要的是能够帮助用户快速地找到系统的故障、系统运行的瓶颈以及性能降低的根源,而不必对大量的原始数据进行分析。

监控系统可以帮助服务管理员找到IT环境里的性能瓶颈和潜在问题。但用户要的或许更多。这样的瓶颈和问题对业务究竟有怎样的影响?企业经营者和IT技术人员看待问题的角度并不完全一致。实际上从企业经营者的角度来说,业务系统的重要性是不一样的。有些业务系统并不重要,出现问题可以有一个相对缓冲的时间去解决,而有些业务系统十分重要,出现问题需要马上处理。而技术人员看到每一个报警信息都会去处理,因为对他来说所有的设备的重要性都是一样的。为了更好的让IT系统为企业经营服务,应该在IT系统和业务系统之间搭建更为清晰的桥梁。当有了这个桥梁以后,枯燥的IT环境将发生了根本的改变,IT设备有了个性,即每个设备都是有自身的优先级的,需要分别对待。而业务部门将能够非常清楚地在业务逻辑视图上看到哪些业务子系统无法正常工作了,从而可以有时间进行提前的准备和进行相关的预备工作。

监控系统与可用性历史数据分析之间有着密不可分的关系。监控系统往往就是可用性历史数据的来源。所以监控系统和可用性历史数据分析系统常常被集成到同一个产品中。

IBM公司在IT系统可用性管理方面有非常丰富的经验并拥有非常完善的产品家族。其中最典型的产品包括IBM Tivoli Monitoring ,IBM Tivoli Netview,IBM Tivoli SAN Manager,IBM Tivoli Enterprise Console和IBM Tivoli Business System Manager等。

下图是IBM Tivoli Business System Manager的应用示意图。利用TBSM,用户可以直观的看出某个IT基础设施的故障给整个企业业务系统造成的影响。



4.1.3 能力管理(Capacity Management)

能力管理涉及的范围包括资源能力的管理,服务能力的管理和业务能力的管理。落实到实际的IT系统环境中,资源能力的管理占有重要的地位,而后两者更侧重于咨询服务和组织结构的设置。资源能力包含存储能力和计算能力。而资源能力的管理一般可以划分为三个环节,分别是:能力需求分析,能力数据管理,和能力使用情况监控。有效的资源能力管理,可以最大限度的发挥企业现有资源的利用率,降低企业的采购成本,降低服务管理的复杂程度,同时提高服务管理的灵活性。



4.1.3.1 存储管理

作为企业最可宝贵的财富之一,“数据”在企业中的地位毋庸置疑。任何形式的数据都必须依赖某种形式的存储而存在。因此存储管理便成为了企业服务管理中非常重要的一个环节。

存储管理涉及的核心功能一般说来可以划分为以下两个方面:

1. 构建合理的存储结构

对大多数企业来说,存储的环境是一个典型的异构环境。种类繁多的存储设备来自不同的厂商,遵循不同的标准,使用不同的接口。这样的环境为服务管理人员带来很大麻烦,同时也很容易造成资源的浪费。一个典型的场景就是:

当A系统存储空间已经爆满,需要扩充时,B系统的存储空间还有很大富余,遗憾的是B存储设备无法为A系统使用。

为了避免这一场景的频繁出现,我们不妨设想一个完美的存储环境 – 虚拟化的存储环境:

在这样的环境里,虚拟化存储在用户与物理存储设备之间加入了一层抽象物质。各种存储设备仍在使用,但它们按照事先确定的优化利用率的策略集中在一起,形成一个虚拟存储空间。

这是一个简单的例子:用户服务器上的硬盘也许只有40G,但通过使用虚拟化技术,服务器上的硬盘空间可以得到几乎无限的扩展,无论数据实际保存的位置在哪里,也无论它被保存在什么介质上(也许是光盘,也许是磁带,也许是10公里意外的一个磁盘阵列)。服务器都始终能够像数据保存在本机硬盘上那样存取数据。 当A系统再次出现存储空间不足的时候,管理员可以很轻松的从巨大的“虚拟存储池”里为A系统分配更多的空间,而不再担心存储设备能否被A系统所识别。
  具体而言,虚拟化的存储让客户以“透明”自动的方式在磁盘或磁带上存储数据。在虚拟存储环境下,服务管理员不必再关心物理存储设备的特征,只需专注于管理存储空间。而这一工作也将变得非常的简单。

对用户来说,存储虚拟化带来的益处是显而易见的,首先是提高了存储效率,降低了存储投资的费用;二是简化了存储管理的复杂性,降低了存储管理和运行成本。根据Evaluator Group的调查报告显示:传统的存储环境中,开放系统的容量利用率仅为40%~50%,这种低使用率造成了企业不得不耗费大量的额外成本满足存储扩容的需求。而构建虚拟化的存储环境则可以减少或者避免这种情况的发生。

IBM公司在存储虚拟化领域占据着领先的地位,典型的应用于存储虚拟化的产品有IBM公司的:

IBM TotalStorage SAN Volume Controller
IBM TotalStorage SAN Integration Server
IBM TotalStorage SAN File System
IBM TotalStorage Productivity Center等。

2. 优化存储设备的利用率

对企业来说,“数据”是宝贵的资源,而承载数据的载体-“存储设备”也是一笔不菲的开销。IT的进步给现代企业带来了更多的选择,高速硬盘,可读写光盘,磁带,光纤盘柜,高容量带库等等。这些设备具有不同的读写速度性能,也具有不同的容量,相应也具有不同的使用成本。怎样合理利用这些种类繁多的存储设备,怎样让每一块好钢都用在刀刃上?是服务管理面对的一个重要课题。

合理的存储利用方式应该是:用高速存储设备应用于应用密集型的环境,如生产数据库,频繁被查询的数据库放在高速硬盘,或光纤盘柜中;用低速,大容量存储设备存储历史数据,例如将超过三个月未曾被人访问过的数据存放在带库里。这样就形成了一个层次形式的存储架构。理想的情况是,高速设备上的数据往低速设备上迁移这一过程是对用户透明的。例如企业的票据,当在高速硬盘上存放三个月没有被人访问过以后,将依据规则自动迁移到带库中去;而当某天,用户需要读取该票据的时候,用户无需知道票据的实际存储位置,用户只需要按照正常方式访问该票据,存储系统将自动把票据从磁带上取回,重新存放到磁盘上,再反馈给用户。

毫无疑问,具备这样功能的层次型存储管理软件将大大降低存储设备的购置花费,提高存储设备的利用率,并减轻服务管理人员的工作量,同时从人员和资金两个方面节省了企业的使用成本。

目前,软件市场上能实现层次型存储管理的软件中,IBM的Tivoli Space Management是一个杰出的代表。除此以外IBM Tivoli Storage Resource Manager(ITRSM)也是实现存储能力利用率提高的一个有效工具。ITRSM可以帮助用户规划存储资源的分配,管理并记录当前存储资源的分布状态,同时监控当前各种应用耗费存储资源的情况,并根据实际的需要动态分配存储资源给需要的业务系统。

下图描述了ITRSM的工作原理和分布架构,通过ITSRM的Agents,用户可以通过浏览器远程监控和管理各种服务器包括数据库应用的存储资源利用情况。



监控得到的结果可以非常直观的通过各种图表得到体现,如下图所示:

[img]http://www-900.ibm.com/cn/support/guide/whitebooks/Service_Management/image/Service_Management43.jpg/img]

4.1.3.2 计算能力的有效利用

企业的计算能力是指企业内部各种类型计算机所具有的运行企业应用的能力。根据Gartner的统计结果,在目前的IT环境中,企业的计算能力存在着惊人的浪费,传统的服务器配置导致系统的利用率只有15%-20%左右,而大部分的系统计算能力是被空置浪费的。从这个角度出发,似乎企业内部总是有富余的能力可以游刃有余的处理客户的请求。但实际情况呢?

下面是一个现代企业运营过程中经常出现的例子:

A是公司电子商务网站的网管,他最头疼的就是当有促销活动和节假日时,网站的访问量激增,但是又无法预测到底能有多少访问量。实际上当访问量激增的时候,公司的服务器总是出现明显的负载过重现象,客户总抱怨网站速度很慢。公司同时还有其它的业务系统,上面的负载很小。这时,A经常梦想能够分享那些业务系统计算机的处理能力。实际上,A曾经尝试过,从别的生产系统中,借来两台服务器以应对网站的访问高峰。但是,繁琐的安装和配置过程也要浪费大量的时间。

事实上,这才是大多数企业目前的计算能力使用状况。有没可以改善的办法呢?

一个理想的方案是:

一旦服务器达到应用极限,它就可以自动的从一个计算能力资源池里启用适当的资源分流工作量。新资源可以根据实际需要进行配置,一旦应用高峰期结束,网络流量下降,这些辅助资源又可以投入到常规工作之中。所有的一切工作都自动发生。而且这个方案还支持多种异构平台,能够满足企业多种多样复杂的环境的需求。

在IBM这样的解决方案叫做Infrastructure Orchestration(基础设施的管弦乐团)。的确,在应用这样的解决方案过程中,服务管理人员就如同指挥家一样,能够把底层资源与高层需求联系起来,这也是一场管弦乐演出能否成功的关键。它能够在核心的自动化规则比如可用性、安全、优化和预先配置之间进行协调,根据应用的优先级自动分配资源,确保需求达到峰值时的应用服务水平,并可按照渐进方式比如从手工、半自动到自动化的方式逐步实现自动化。能够将用户的资源利用率从平均20%提升到50%,并减少30%-40%的管理时间。

目前支撑这种解决方案的产品有:Tivoli Intelligent ThinkDynamic Orchestrator和IBM Tivoli Provisioning Manager。在2003年9月份举行的美国网球公开赛上,IBM Tivoli Intelligent ThinkDynamic Orchestrator已经成功亮相,它与IBM Tivoli Provisioning Manager一起帮助公开赛的IT系统能够在正确的时间为合适的应用调配合适的资源,成功保证了该赛事的网站实现优质服务,处理每天420万次的点击。

4.1.4 IT服务持续性管理



IT服务持续性管理是指确保发生灾难后有足够的技术、财务和管理资源来确保IT服务持续性的管理流程。IT服务持续性管理关注的焦点是在发生服务故障后仍然能够提供预定级别的IT服务从而支持组织的业务持续运作的能力。从企业实际运作的角度来看,由于灾难和故障的发生是不可预料的,所以服务持续性管理的根本目的是尽量缩短企业IT系统因为灾难和故障而停滞的时间。从而我们也可以理解IT服务持续性管理也就是快速故障恢复管理。而实现系统快速故障恢复,最有效的工具就是建立一个完善的备份系统。

备份,是保存业务数据的最好手段。当生产系统出现故障,导致系统停机的时候。用户可以利用备份的业务数据实现生产系统的快速恢复。从而最大限度的将事故造成的各种损失降低到最小。

但是,备份作为保护生产数据的一种操作,必然会占用生产环境额外的资源,例如网络带宽,CPU利用时间等等。而不同的备份方式所占用的存储空间也不一样,例如全备份与增量备份所占据的存储空间就相去甚远。

备份的根本目的是为了在事故发生时能够快速恢复生产系统,因此如何能够缩短恢复的时间;如何能够让损失的数据量降低到最小;这些都是存储备份软件所必须要考虑的内容。

综合考虑众多的因素,一个接近完美的存储备份解决产品应该具备这样的一些特点:
备份功能完备,尽量减少对生产系统的影响,尽量减少存储的空间
一个好的存储备份产品,应该可以支持多种备份方式,既可以支持文件的备份,也支持应用的备份(例如数据库的备份,应用服务器的备份);既支持离线备份,也支持在线备份;既支持全备份,也支持增量备份;既支持基于LAN的备份,也支持LAN-Free形式的备份。如果使用在线的增量备份,一方面企业的生产系统照常运行,不会发生生产停顿的状况,另一方面,存储所占用的空间将大大减少。从而一方面降低了生产停顿造成的影响,另一方面也降低了存储的成本。
恢复速度快,恢复的方式灵活多样
一个好的存储备份产品,必然也是一个恢复速度极快的产品。备份是防患于未然,恢复是救企业于水火。因此,高的恢复速度,可以大大降低企业的生产损失。同时,用户对恢复的要求也是多样的,有的要求恢复到最近的状态;有的要求恢复到某一时间点;有的要求全部恢复;有的仅要求恢复某一部分数据。好的存储备份产品,应该能够完全满足这些要求,从而缩短用户操作的时间,带给用户更多的可选性。
支持软,硬件平台广泛
现代企业的IT应用环境几乎都是异构的,同一个企业内部同时拥有多家厂商的软,硬件产品。一个优秀的存储备份软件,必须能够尽可能广泛的和这些产品相兼容。
完善的自动化工作机制
备份是一个需要经常,定期执行的操作,提供完善的自动化工作机制可以减轻服务管理人员的工作量,同时也提高备份操作的准确性。
完善的灾难恢复机制,完善的远程备份机制
灾难总是突如其来的发生,一个完善的灾难恢复机制可以帮助用户在受到灾难袭击时,可以从容的面对,尽可能快的实现存储备份环境的恢复,并进一步实现生产环境的恢复。同时,远程备份已经成为了很多企业,特别时跨地域企业的基本需求。有效的远程备份可以进一步提高备份数据的安全性。
存储备份管理可实现的功能特点还很多。但是以上的要求应该是一个优秀的存储备份软件的必需条件。目前软件市场上流行的备份软件不少,IBM公司的Tivoli Storage Manager就是其中的佼佼者。以上列举的功能要求只是Tivoli Storage Manager能够实现功能的一个子集。



4.1.5 财务管理



IT服务管理中提到的财务管理主要是指负责预算和核算IT服务提供方提供IT服务所需的成本,并向客户收取相应服务费用的管理流程,包括IT投资预算、IT服务成本核算和服务计费三个子流程。对实际的IT应用环境来说,主要体现在服务或产品授权许可的管理,企业现有软硬件产品的成本管理等。

IBM公司在IT服务财务管理方面提供的产品主要包括Tivoli License Manager和Tivoli Inventory。

4.1.6 服务中心(Service Desk)



在企业的实际运行中,服务中心是一个技术支持机构,同时也是服务支持(Service Support)周期中,最直接面向用户的一个核心服务内容。

作为一个技术支持机构,服务中心的工作是负责维护IT部门提供给最终用户的各种IT服务。在整个IT服务支持环节中,服务中心也是最终用户可以直接接触到的唯一IT服务部门。当IT服务出现问题时,用户通过服务中心把问题反应上来。服务中心按照规定的服务规范和服务准则,分清楚问题的种类,协助用户查清楚产生问题的根源。对大多数日常操作中出现的常见问题,服务中心可以通过远程或者到现场的方法协助用户排除问题。对一些比较复杂的问题,服务中心可以把问题转向更高级的服务提供部门,要求协助;并在获得答案后,按照正常的服务流程,为用户提供相应的服务。服务中心的最主要目标是为客户提供一个唯一的IT支持接触点,以最快,对业务影响最小的基础上实现IT问题的解决。

作为一个产品,服务中心可以接收并记录所有由用户提交上来的各种服务请求,记录服务中心工作人员的日常工作情况,可以追踪每个请求得到的服务响应,也可以紧密结合其它的服务支持工具,例如配置管理软件等,直接帮助用户排除故障。

Remedy公司的Help Desk是目前应用相当广泛的服务中心软件。它是一个非常灵活,界面友好的工具,提供了包括Web,电话,电子邮件,等多种接口。用户可以使用这多种接口中的任何一种与服务中心取得联系,与服务中心的工作人员友好交互,并获得服务中心的帮助。Remedy Help Desk与企业内的IT服务支持和IT服务提供工具和流程紧密集成,IT服务人员可以很方便的通过Help Desk,利用IT服务支持工具和IT服务提供工具为客户提供IT服务。

目前业界比较著名的服务中心软件还有Peregrine Service Center和Whitestone Servie Center。

4.1.7事件管理和问题管理



从产品功能的角度,事件管理和问题管理有很多重叠的部分。用户总是在获取的大量事件中找到产生故障和意外的根源,然后才能提出解决问题的方案,并记录解决问题的过程和经验。

事件管理的功能侧重点在于在IT服务的正常提供过程中,尽快发现各种系统运行时出现的故障和问题,并快速排除这些问题。事件管理一般会利用服务中心记录这些问题和问题的处理过程,并把典型的问题和问题处理过程存放进服务支持知识库以备以后参考。

错误管理的功能侧重点在于通过研究知识库中对各种问题和故障的记录,寻找出相关故障发生的根本原因,并提出相应的长期解决方案。有别于事件管理的是,事件管理更偏重尽快,及时的解决问题,因此提供的解决方案有可能有一定的临时性,其目标在于尽快恢复正常的生产;而错误管理更偏重于通过研究,发现问题的共性,认识清楚问题的本质,提出的解决方案也具有通用性和彻底性。因此,错误管理所涉及的功能内容一般包括:问题的鉴别和数据的收集,以及历史问题的分析。

在实际的生产环境中,异常事件的发生往往是不可避免的。系统发生故障或速度变慢都会降低员工的生产力,降低客户满意度甚至丢失客户。避免此类故障并保持最佳性能的关键在于,在问题变得更严重之前快速地诊断并解决它们,但是现代企业中高度互联的IT系统往往会使得这种诊断变得困难、低效而且花费昂贵。一个很典型的应用情况是,一个数据库管理系统往往拥有好几个下游的系统,例如若干个共享数据库的企业应用等等。而当这个数据库管理系统发生故障以后,往往会迅速导致所有与之相关的业务系统发生故障,以至多个下游组件发出相应的警告。因此监控系统将会捕获大量的错误信息和警告信息,随之引起的混乱将导致时间与精力的浪费。

鉴于异常事故的不可避免,如何有效的处理事故发生时产生的各种事件?如何尽快从这些事件中挖掘出事故的根源?这就是事件管理和问题管理软件所需要处理的难题。

毫无疑问,有效的事件管理和问题管理,可以很大的提高企业应用系统的稳定性,减少企业事故发生时所遇到的损失,缩短企业恢复生产所需的时间。

IBM公司在事件管理和问题管理领域一直保持着巨大优势,其该领域的拳头产品IBM Tivoli Enterprise Console(TEC)在业界享有盛誉。下图描述了TEC的产品组件之间的关系。



TEC通过对IT基础设施的宽度覆盖(包括网络、服务器、应用和安全),能够实现在一个点上对重要信息的整合。TEC可以进行智能化多级分析和关联,过滤掉容易使人产生误解或冗余的事件,突显重要信息,指导客户的支持人员快速准确地把握问题根本原因 。它甚至可以根据用户的定义自动对突发事件作出响应。对于发送到控制台的重要事件,TEC提供可定制的显示方式确保用户的操作员只看到与他们工作相关的事件,帮助他们集中精力处理关键的事件,从而使用户能够处理最大、最复杂的环境。在TEC的客户中,一家使用这种多级关联的欧洲银行曾成功地将环境中的300,000个事件锐减到了30个。

除TEC外,Remedy公司的Remedy Help Desk软件也是业界常用的事件管理和错误管理工具。实际上,由于Remedy Help Desk作为建设服务中心的常用软件,经常与IBM公司的TEC配合使用。

4.1.8配置管理和发布管理


配置管理是每个IT 组织都要面对的一项工作。配置管理的目标是识别、控制、维护和检验现有的包括基础设施和服务在内的IT资产,它首先维持配置管理数据库(CMDB)中每个IT基础建设的配置记录,同时提供配置项目(CI)的报表。这包含了一些管理信息如问题记录,变动记录,版本信息,状态信息,关系信息等。配置管理流程的实施有助于通过一种有节制而高效的方式进行IT基础平台变更,并为事件管理,问题管理,改变管理以及其它IT服务过程提供精确的基础数据来源。

Remedy公司的Remedy Asset Management是目前应用较多的一款配置管理软件。它直接支持ITIL兼容的配置管理流程。

Remedy Asset Management可以自动获取企业IT环境(无论是集中式还是分布式)中的配置项目信息,例如硬件的序列号,型号;软件的名称,版本,补丁等综合信息;Remedy Asset Management不仅可以搜集配置项目的基础信息,还可以确定配置项目之间的逻辑关系和物理关系,并记录所有这些信息发生变化的结果以及变化的过程。由于Remedy Asset Management使用数据库详细记录了企业的IT基础设施配置信息,所以对企业的服务人员和管理人员来说,制订相关的报表也就变得非常简单了。

与配置管理有所不同,发布管理的主要目标是在企业范围(无论是集中还是分布环境)中修改,创建和发布新的软件版本,以修正原有版本中存在的一些问题。现代企业内部的IT系统环境已经越来越复杂,分布的地域也越来越广泛,如何有效的在这种分布式的环境中实施软件的分发和安装是一件日益复杂的工作。一个很简单的场景,“冲击波”病毒的肆虐让很多企业尝到了苦头。如果企业内所有的PC机上都升级过Windows的补丁,装上了防病毒软件,并适时的更新了病毒列表,则病毒将没有容身之地。但是,如果企业内有1000台PC,分布在不同的网段,分布在不同的地域,怎样才能实现所有计算机的软件同步升级?在这时候,一个合适的发布管理软件就将体现出它的价值。

IBM的Tivoli Software Distribution Manager曾是业界最负盛名的软件分发管理软件。现在,在产品中追加更多的先进管理思想和先进软件技术之后,IBM公司推出了IBM Tivoli Configuration Manager。



IBM Tivoli Configuration Manager可以帮助客户全面控制企业的软件和硬件。它的软件分发模块能让用户从一个中心点将复杂的任务关键型应用程序快速有效地部署到多个位置。

利用Tivoli Configuration Manager,客户可以跨越企业部署软件,实现跨平台、企业级库存管理。从产品包装、组织计划到安排发货、设备安装以及总结报告,这款发布管理软件提供了针对快速、集中应用部署和管理的一整套工具。它是强化桌面支持技术的强大手段,有助于降低客户的资产管理成本。

综合使用配置管理和发布管理工具,并规范其相应的过程,企业可以非常有效的对企业的IT资产的进行管理,维护和升级。

4.1.9 改变管理



在ITIL的定义中,改变管理的主要目标是建立一个标准化的方法和流程,以确保快速和平滑的实现IT环境,IT过程的改变,并确保变化的发生对企业业务所造成的负面影响降低到最小。

改变管理的过程主要是用户提出对IT服务,IT系统的修改要求;管理人员在接收到要求的前提下,检验并批准关于对IT服务,IT系统进行修改的要求,因此改变管理的软件主要包括对对提出修改要求的跟踪,批准过程的跟踪,对改变所产生的数据发布工作的协调,以及对改变对服务和系统所产生影响的分析。

Remedy公司的Remedy Change Management是目前业界应用比较广泛的改变管理工具。Remedy Change Management提供了对整个改变发生过程的跟踪记录。

在改变提出阶段:Remedy Change Management提供了对改变请求的登记,改变要求的跟踪,以及根据改改变的重要性,优先级,改变的原因,改变影响的范围对改变要求进行分类等等。

在改变批准阶段:Remedy Change Management提供了对改变要求的审核,授权,实施的全程跟踪和辅助,例如它可以提供对改变所需要的人力,物力资源,事件资源的建议和管理。

同时Remedy Change Management还具有对改变所带来的风险,可能产生的后果进行分析的功能。在完成改变的实施以后,用户可以很方便的使用Remedy Change Management来统计改变已经带来的业务影响。

除了Remedy Change Management外,IBM的Rational ClearQuest也是应用改变管理的常用产品。[/img]

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多