事件是从哪里来的? 每个服务都有可能导致事件的错误,缺陷或漏洞,这些错误,缺陷或漏洞可能来自服务管理的四个维度。 例如,某个软件可能有错误,某些设备可能损坏了内存,或者供应商可能没有能力按照商定的目标解决服务问题。 在服务设计,开发和部署过程中,某些错误仍然无法识别或无法解决,并且可能会对实时服务造成风险。 在ITIL中,我们将问题定义为一个或多个事件的原因或潜在原因。 已知错误定义为已分析但尚未解决的问题. 问题管理的目的是通过确定事件的实际和潜在原因,并管理变通办法和已知错误,以减少事件的可能性和影响。 问题与事件有关,但重要的是要按照管理问题的方式加以区分: 事件对用户或业务流程有影响,必须加以解决,以便可以进行正常的业务活动。 问题是造成事故的原因,因此需要进行调查和分析以找出原因,制定解决方法并建议更长期的解决方案。 这减少了未来事件的数量和影响。 问题管理涉及三个不同的阶段: 1.问题识别 问题识别活动通过以下方式识别和记录问题: l 执行事件记录的趋势分析; l 检测重复和重复出现的问题; l 在重大事件管理期间,确定事件可能再次发生的风险; l 分析从供应商和合作伙伴处获得的信息; l 分析从内部软件开发人员,测试团队和项目团队收到的信息。 2.问题控制 问题控制活动包括问题分析,记录解决方法和已知错误。就像事件一样,问题将根据它们对服务的可能性和影响所构成的风险来进行优先级排序。应重点关注对服务和服务管理具有最高风险的问题。 在分析事件时,重要的是要记住它们可能具有相互关联的原因,这些原因可能具有复杂的关系。因此,问题分析应采用整体方法,考虑所有引起事件的原因,例如导致事件发生,使事件恶化甚至延长事件发生的原因。 当无法快速解决问题时,基于对问题的了解,找到并记录未来事件的临时解决方案通常很有用。临时解决方案定义为一种解决方案,可以减少或消除尚未提供完整解决方案的事件或问题的影响或可能性。比如重新启动应用程序中的服务或故障转移到辅助设备。临时解决方案记录在问题记录中,并且可以在任何阶段完成,而不必等待分析完成。但是,如果 解决方案已在问题控制的早期记录在案,然后应在问题分析完成后进行检查和改进。 有效的事件解决方法可以成为处理某些问题的永久方法,而无法解决问题或降低成本。在这种情况下,问题仍然存在于已知的错误状态,并且在发生相关事件时将采用已记录的解决方法。每个记录的解决方法都应包括问题的现象和上下文的清晰定义。解决方法可能会自动执行,以提高效率并加快应用程序提供服务。 3.错误控制 错误控制活动管理已知的错误,并可以识别潜在的永久解决方案。 如果永久解决方案需要变更控制,则必须从成本,风险和收益的角度进行分析。 考虑到对客户和/或服务可用性的总体影响,永久性解决方案的成本以及变通办法的有效性,错误控制还会定期重新评估尚未解决的已知错误的状态。 每次使用变通办法时都应评估变通办法的有效性,因为可能会根据评估结果来改善变通办法。 问题管理与其他实践流程的关联
问题管理的人员方面许多问题管理活动都依赖于知识和工作人员的经验,而不是详细的文档化的流程。 问题管理的技能和能力包括理解复杂系统的能力,以及思考可能发生的不同故障的能力。发展这种分析能力和创造力的结合需要指导和时间,以及对诸如Cynefin,Kepner等技术的适当培训 Tregoe,5-Whys,鱼骨图和Pareto分析等。 由于问题管理处理运营环境中的错误,因此它主要涉及服务价值链的改进,交付和支持价值链活动,如下所示:
|
|