此话题中所述数据中心是指为集中放置的电子信息设备提供运行环境的建筑场所及其内为电子信息系统提供运行保障和运行环境的场地和设备系统。 数据中心的应急预案和应急响应管理是在管理上预防灾难、使得数据中心本身的弹性和容错能力能够充分发挥其作用,甚至在某些情况下增加数据中心的弹性和容错能力的管理活动。它需要确保数据中心在发生灾难后有足够的技术、财务和管理资源来确保数据中心的持续性运作,在中断事件发生后,确保数据中心在预先确定的可接受的水平上连续提供服务。数据中心应建立、实施和保持一个正式的、形成文件的服务影响分析和风险评估过程。对场地、设施及服务存在的可能影响运维目标和数据中心持续提供服务能力的风险及其对数据中心服务的影响进行识别、分析和评价,确定可接受的服务目标,对评估出的风险进行处置,并按照风险发生的可能性以及发生后果的严重性制定应急预案。应急预案应确保对应应急场景下的可接受的服务目标的实现,应急预案不仅仅是应急操作程序(EOP),其内容应包括:a. 确定在应急场景事件发生时和发生后相关人员和团队的角色和职责;b. 启动应急响应的过程;c. 处理中断事件所造成的直接后果的详细说明;d. 如何以及在何种情况下与员工(及其亲属)、关键相关方以及紧急联络人进行沟通;e. 如何在预定的时间里继续或恢复其优先活动,包括启动应急操作程序(EOP),应急期间的运行调整等;f. 如有需要,可就事件发生后,运维团队的媒体响应进行详细说明;g. 事件一旦结束后的退出过程;h. 资源的要求;i. 信息流和存档过程。
数据中心应有用以在事件发生后从所采用的临时措施中恢复并重新开始正常服务的文件化程序。数据中心应按计划的时间间隔或者当运营环境出现重大变化时演练和测试其应急预案和恢复程序。应形成正式的演练总结报告,内容包括输出结果、建议和实施改进的措施。转载请注明出处。 作者简介 |
|