分享

数据中心几种典型场景的应急处置预案

 yi321yi 2017-03-06

一、数据中心市电失电的应急处理预案


为进一步加强数据中心用电管理工作,提升数据中心应对突发市电失电事件的应急反应速度和处置能力,快速、高效处理停电事件,最大限度减少市电停电对数据中心运营带来的影响,确保数据中心基础设施安全、有效运营,特制订此预案。


应急处置预案启动条件:全部市电停电且停电时间超过15分钟仍未恢复,全部市电停电,是指数据中心所属市电全部供电电源进线未事先声明的、非检修、突发性事故或遭人为破坏等原因导致停电。


应急方案执行原则如下:


1、沉着、冷静,紧密配合,团结协作。


2、当启动应急预案时,需及时通知进驻各业务单位做好启用网元应急方案的准备。


3、先联系确认停电原因与时间,再确定应采取的进一步方法与步骤。


4、先确认设备当前状态,再进行下一步操作。


5、在进行相关应急保障操作时,先进行操作,后接打问询电话进行解释、说明。


应急处理流程如下:


1、确认单路或全部市电停电。直流操作电源告警声响、一般照明灯熄灭、事故照明灯处于电池放电照明状态,或动环监控值班人员电话通知时,应立即检查各高压输入柜的电压表电压指示,确认是否处于单路或全部市电停电状态。


2、通讯联系。确认单路或全部市电停电后,值班人员应协同配合,按照应急预案采取应急措施。应急处置完毕后,应及时与本地区供电公司电话联系,通话时应问清停电的路由、原因、范围、预计停电时长,以及对方的姓名,以备日后记录和查询。及时通知应急保障小组成员及总协调人进行故障上报,通知数据中心入驻单位做好采取进一步措施的准备。


3、应急物资


(1)应急照明设备

(2)高低压配电系统结构图

(3)设备维护手册

(4)各种柜门钥匙


4、应急处置流程(以双路市电停电,高压油机单边送电,低压联络自投自复为例)


(1)确认双路停电,市电进线断路器跳闸。

(2)检查油机自启后并机是否成功。

(3)如并机不成功需排除故障,完成手动并机。

(4)油机并机成功,将单边高压油机进线断路器摇到合闸位,合高压油机进线断路器。

(5)将市电进线断路器摇出。

(6)高压操作结束,检查油机运行状态,记录相应数据,同时电话询问供电公司停电原因及时长。

(7)检查低压配电设备联动是否正常,设备是否运行正常。

(8)检查空调系统冷水机组、水泵及末端空调是否工作正常。

(9)检查油库油位,是否需要通知供油单位及时补充燃料。


应急人员安排及联系方式如下:


维护人员联系方式

序号

职务

姓名

电话号码

1

项目经理

xxx

xxxxxxxxxxx

2

高压值班员1

xxx

xxxxxxxxxxx

3

高压值班员2

xxx

xxxxxxxxxxx

4

高压油机工程师1

xxx

xxxxxxxxxxx

5

高压油机工程师2

xxx

xxxxxxxxxxx

6

高低压配电工程师1

xxx

xxxxxxxxxxx

7

高低压配电工程师2

xxx

xxxxxxxxxxx

8

监控工程师

xxx

xxxxxxxxxxx


厂家工程师联系方式

序号

系统

名称

联系人

联系电话

1

油机厂家

项目经理

xxx

xxxxxxxxxxx

2

工程师

xxx

xxxxxxxxxxx

3

高压柜厂家

项目经理

xxx

xxxxxxxxxxx

4

工程师

xxx

xxxxxxxxxxx

5

低压柜厂家

项目经理

xxx

xxxxxxxxxxx

6

工程师

xxx

xxxxxxxxxxx


二、数据中心灭火应急处置预案


为进一步加强数据中心安全管理工作,提升数据中心基础设施维护团队应对突发火灾事件的应急反应速度和处置能力,及时、高效处置事件,最大限度减少突发情况对数据中心造成的损失,保障数据中心的安全、有效运营,特制订此预案。


应急处置预案启动条件:数据中心总监控室接到火灾报警(包括设备报警和人为报警),并现场确认为火警后,立即启动“数据中心灭火应急处置预案”。


应急处置预案执行原则如下:


1、 “以人为本,安全第一”原则。在应急处置过程中,最优先的目标和最重要的举措是保证人身安全,包括应急队伍的自身安全。


2、“第一响应,快速处置”原则。在数据中心火灾事故发生后,必须在极短的时间内就地做出应急反应,在造成严重后果之前采取有效的防护、急救和疏散等措施。


3、“统一指挥,统一协调”原则。在应急处置过程中,数据中心各工作组、各单位必须服从应急处置现场指挥组的统一指挥协调,统一号令,步调统一,令行禁止。


4、“预防为主,平战结合”原则。坚持数据中心突发火灾事件应急与预防工作相结合,重点加强数据中心安全隐患排查,做好预防、预警、预报和常态下应急准备、应急队伍建设、应急演练等工作,确保应急预案的科学性、规范性和可操作性。


应急处置调度机制:当数据中心发生异常情况时,应按照“逐级上报,统一指挥”的处置调度机制执行,当直接上级无法联络时,应在2分钟内越级上报。


管理层级

责任人

联系方式

监控值班员

xxx

xxxxxxxxxxx

值班经理

xxx

xxxxxxxxxxx

xxx

xxxxxxxxxxx

分管领导

xxx

xxxxxxxxxxx


应急处置组织机构如下:


总指挥:xxx

现场指挥组组长:xxx

现场指挥工作组:xxx

现场协调灭火组组长:xxx

中控指挥组组长:xxx

设备组组长:xxx

疏散组组长:xxx

气体灭火启动组组长:xxx


数据中心报警程序和接警处置程序如下:


1、无论任何人员,发现数据中心火灾应立即拨打“119”电话,报告公安消防部门。


2、报警时讲清楚以下几个内容:


(1)报警人的姓名、地址、工作单位、联系电话。

(2)失火的准确地理位置。

(3)能够了解失火的情况,如起火时间、燃烧特征、火势大小、有无被困人员、有无重要物品、失火周围有何重要建筑、行车路线、消防车和消防队员如何方便地进入或接近火灾现场等等。

(4)耐心回答“119”接警人员的询问。

(5)打完电话,应组织人员到各个路口等待消防车的到来,以便引导消防车和消防队员快速进入火灾现场。


3、监控室保卫人员接到警报后,应立即采取以下措施:


(1)组织义务消防队赶赴现场,并及时通知事故发生部位的人员或电工切断着火部位的电源。

(2)通知相关人员迅速聚集,按预定程序和措施组织疏散和扑救,并立即向有关领导报告。

(3)值班人员在火灾事故期间,严格控制出入车辆和人员。


4、应急疏散组织程序和措施。数据中心在发生火灾时,要以人员疏散为主。先疏散被火势围困的人员,其次进行火势周围的物资疏散,同时要注意疏散人员自己的安全。消防队到达火灾现场后,应听从公安消防人员的指挥进行疏散工作。


5、扑救初期火灾的程序和措施如下:


(1)安全保卫人员在接到火警后,应迅速赶往失火地点,听从消防安全负责人的统一指挥实施灭火,防止火势蔓延。

(2)安全保卫人员发现有人员被火势围困,应先救人,后灭火,如发现有易燃易爆危险物品受到火势威胁时,应迅速组织人员将易燃危险物品转移到安全地点。

(3)如起火物为化学药品或易燃易爆危险物品时,应在确定无爆炸危险的情况下,用干粉灭火器、沙子等物品进行扑救,用火将周围的可燃物品淋湿,但严禁用水扑救化学药品或易燃易爆危险物品火灾;如不能确定有无爆炸危险的,应在安全地点做好准备,等待消防部门的指挥人员的调令和火灾现场总指挥的命令。

(4)在公安消防队到达火灾现场后,应听从公安消防部门指挥人员的指挥,配合灭火工作。


6、通信联络、安全防护、救护的程序和措施。通信联络的程序和措施如下:


(1)发生火灾后,安全保卫人员或值班人员应第一时间立即通知领导及消防安全责任人和消防安全管理人员到达火灾现场。

(2)根据总指挥的指令,及时将破拆、停电、供水、车辆调配等灭火指令传达到火灾现场。

(3)将火场的进展情况及时反馈,保障火灾现场与外界的信息畅通和寻求相邻单位支援的联络工作。


安全防护的程序和措施如下:


(1)发生火灾后,安全保卫人员应首先控制车辆和无关人员进入火灾现场。

(2)派一名人员到路口引导消防车和消防队员快速进入火灾现场。

(3)火灾扑灭后,要全面检查现场,消灭遗留火种,并派人保护好火灾现场,等待公安消防部门的监督检查,协助对火灾现场进行调查。


救护的程序和措施如下:如有人受伤或中毒,应根据伤势情况及时处理,必要时拨打“120”救护。


应急处置联系表

项目/组别/单位名称

联系人

联系电话

数据中心消防值班室

xxx

xxxxxxxxxxx

现场总指挥

安全保卫处

xxx

xxxxxxxxxxx

现场指挥工作组

安全保卫处

xxx

xxxxxxxxxxx

现场

协调

灭火组

物业公司

xxx

xxxxxxxxxxx

动力维护

xxx

xxxxxxxxxxx

空调维护

xxx

xxxxxxxxxxx

入驻单位1

xxx

xxxxxxxxxxx

入驻单位2

xxx

xxxxxxxxxxx

中控指挥组

物业公司

xxx

xxxxxxxxxxx

设备组

物业公司

xxx

xxxxxxxxxxx

疏散组

物业公司

xxx

xxxxxxxxxxx

气体灭火启动组

物业公司

xxx

xxxxxxxxxxx

火灾报警电话

119

急救报警电话

120

公安报警电话

110

注:所有参与灭火人员均将对讲机调整至统一频道。


三、空调设备故障应急处置预案


为了确保机房空调系统安全运行,建立健全空调系统设备故障保障和恢复应急工作机制,提高应对设备突发故障的组织指挥能力和应急处置能力,满足突发故障下机房空调系统工作正常和恢复工作的需要,特制定机房空调故障应急处置预案。


应急方案启动条件:机房空调系统出现故障,导致机房局部产生高温,将会对其他业务产生影响,造成数据设备运行不正常时,立即启动“空调设备故障应急处理预案”。


应急方案执行原则如下:


1、空调设备故障应急处置预案,要坚持统一指挥、分级负责、快速反应、保障有力,坚持先抢通、后修复的原则。


2、出现空调设备重要故障时,值班人员要在5分钟内逐级上报主管领导和相关维护人员,相关主管和维护人员不得擅离岗位,随时保持通信畅通。


3、维护人员严格遵循空调设备维护和故障处理的规范要求,熟悉故障紧急处理流程,熟练掌握操作步骤和方法,在处理故障时应尽量缩短障碍时间。


4、处理空调设备故障时,深入查看和分析空调设备告警日志,根据告警内容来确定故障处理的方向。


5、对处理完毕的空调设备故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。


网络/设备/系统现状:配套空调系统设备主要包括10台10KV高压离心冷水机组及其配套设施、380V离心冷水机组5台及其配套设施、屋顶15台开式冷却塔及其配套设施、冷冻水型机房专业空调318台等组成。


破坏原因及破坏结果分析:空调设备突发故障,包括空调本身设备故障、人为原因造成空调故障,将导致机房温度升高不能满足数据设备运行的环境需要,严重影响设备的正常工作。


预防保障措施如下:


(1)加强机房空调设备的预防性维护工作,定期查看和分析空调设备的运行参数、告警内容,掌握空调设备运行情况。

(2)严格按照空调维护作业计划,定期查看空调设备告警是否正常,及时发现、排除空调设备运行隐患。

(3)加强技术骨干人员的学习和培训,提高业务技能水平,保证应急情况下空调设备故障的及时处理。

(4)做好空调设备的测试仪表、应急备品备件储备管理,保证应急处置故障时抢修工作顺利进行。


应急措施如下:


(1)机房空调设备发生一般故障时,值班人员立即通知维护主管进行处理,保证在3个小时内处理完毕。

(2)如果空调冷机或者管路故障,启动备用空调工作,安排维护人员在3小时内更换故障器件或者疏通管路,处理完毕冷机和管路问题。

(3)机房空调设备发生重大故障后,值班人员发现异常情况后在5分钟内及时逐级上报领导和启动故障处理过程,组织技术骨干全力抢修。

(4)发生机房空调系统设备重大故障,将造成机房的温度短时间升高,危害数据设备的正常运行。发生此类故障后,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。

(5)冷水机组故障。

  • 冷水机组发生严重故障无法复位时,应马上停机,启动备用冷水机组,要注意开启或关闭相应系统切换阀门。

  • 在5分钟内逐级通知相关负责人,并通知设备厂家工程师,在四小时内赶赴现场维修,在事后组织现场分析会填写维修报告,由维护人员和项目主管确认并存档备案。

(6)循环水泵故障(冷冻水泵、冷却水泵)

  • 巡查时发现运行水泵异常,应先暂停对应主机,后停异常水泵,开启备用水泵,启动主机继续供冷。

  • 维护人员检查维修设备故障,当场解决的问题即时修复并在值班日志上记录。

  • 水泵故障较严重,应报告主管工程师,由其安排组织人员后续维修,并在事后填写维修报告。

(7)冷却水塔风机故障

  • 冷却水塔风机故障,应立即停止该机,转开备用冷却塔和风机。

  • 维护人员检查维修设备故障,当场解决的问题即时修复并在值班日志上记录。

  • 风机故障较严重,应报告主管工程师,由其组织人员后续抢修,并在事后填写维修报告。

(8)冷却水塔底盘漏水

  • 巡查人员发现水塔底盘漏水,应即刻开启备用水塔,将漏水水塔平衡管阀关闭。

  • 故障报告主管工程师,由其组织抢修,并在事后填写维修报告。

(9)冷却水塔溢、漏水

  • 冷却水塔溢水或者漏水时,马上检查相应的浮球开关,可当场解决的即时修复。

  • 浮球开关损坏即刻停止该塔运行,关闭对应的进水阀,并开启备用水塔。

  • 故障问题报告主管工程师,由其组织人员维修,并在事后填写维修报告。

(10)主管道漏水

  • 主管道漏水时应迅速关闭冷水机组和冷冻水、冷却水水泵,并关闭漏水管道的前端阀门,将漏水引入地漏,及时清扫机房地面积水。

  • 现场用沙包拦住电梯口、走廊口,以防水流入电梯井和用户房,将水引入地漏。

  • 将冷水机房内集水器和分水器的底部排水阀打开排水,留意水泵房污水泵抽水情况,一旦发现集水池水位过高,则需关闭排水口。

  • 事后报告技术主管,安排抢修并填写维修报告。

(11)水平管网漏水

  • 水平管网漏水时,应迅速将事发楼层管道井旁的水平管阀门关闭。

  • 现场用沙包拦住设备间门口、电梯口、走廊口,以防水流入走廊、电梯井和用户房,关闭空调水平衡管阀门,并及时组织人员进行抢修。

  • 事后报告技术主管,安排抢修并填写维修报告。

(12)末端空调机房内的管道漏水

  • 末端空调机房内管道漏水,带好地板吸到达漏水地点,检查漏水现场有无触电隐患,防止造成二次伤害。

  • 关闭管道对应阀门,开启机房内对应管道的排水口排水,使用防汛沙袋进行临时封堵,启动备用空调设备。

  • 对漏水管道进行检查,找出漏水点进行维护,使用吸水器做好积水清理工作。

(13)市政补水系统停水

  • 市政管线停水时,为避免制冷机组因缺水造成停机事故,在发现市政停水后,在3分钟通知部门领导,及时和市政供水部分联系处理紧急情况。

  • 开通阀门使用备用水源对冷却水系统供水。


处置流程如下:


应急人员安排及联系方式如下:


序号

职务

姓名

电话号码

1

项目经理

xxx

xxxxxxxxxxx

2

冷机工程师1

xxx

xxxxxxxxxxx

3

冷机工程师2

xxx

xxxxxxxxxxx

4

末端工程师1

xxx

xxxxxxxxxxx

5

末端工程师2

xxx

xxxxxxxxxxx

6

电力工程师1

xxx

xxxxxxxxxxx

7

电力工程师2

xxx

xxxxxxxxxxx

8

监控工程师

xxx

xxxxxxxxxxx


厂家工程师联系方式

序号

系统

名称

联系人

联系电话

1

冷机厂家

项目经理

xxx

xxxxxxxxxxx

2

工程师

xxx

xxxxxxxxxxx

3

末端厂家

项目经理

xxx

xxxxxxxxxxx

4

工程师

xxx

xxxxxxxxxxx

5

冷塔厂家

项目经理

xxx

xxxxxxxxxxx

6

工程师

xxx

xxxxxxxxxxx


四、数据中心油库应急管理预案


总则:为保证数据中心油库安全,并将油库应急管理工作做到规范化、制度化,特制订本管理办法。本管理办法适用于数据中心油库应急故障处置。


应急方案启动条件如下:本预案针对数据中心油库发生突发火灾、供油系统故障两种状态。突发火灾是指油库因施工、供电线路短路等原因引发的油库管路、罐体内柴油发生燃烧的突发时间;供油系统故障是指柴油发电机组得到启机指令后发电机组启动,但供油系统发生不可预见的、突发性的供油中断及其他认为应该按本预案应对的突发情况,可以启动本预案。


应急方案执行原则如下:


1、沉着、冷静,紧密配合,团结协作。


2、当遇到油库火灾或供油系统故障时,须及时通知值班工程师、公司负责人做好启用油库管理应急预案的准备。


3、先确认故障原因与时间,再确定应采取的进一步方法与步骤。


4、先确认设备当前状态,再进行下一步操作。


5、在进行相关应急保障操作时,先进行操作,后接打问询电话进行解释、说明。


设备结构现状为本数据中心高压油机房位于高压发电机楼,目前配置2000KW威尔逊10KV高压油机10台和2000KW卡特10KV高压油机10台。


每个发电机房供油系统由100立方地埋油罐,每台发电机组配套设置的1立方室内油箱,配套管路、油泵,控制系统构成。每个室内油箱均有独立的进、泄油电磁阀;每套供油系统分别有两台供油泵,互为主备,平时靠油箱内的浮球开关控制油泵启停。


应急处置内容如下:


1、供油系统突发火灾。当发电机供油系统的发电机、管路、室内油箱、地埋油罐、油泵等部位的柴油起火燃烧。


原因分析:


(1)施工人员未按规范进行焊接、切割等带明火作业造成管路、油罐、油箱内的柴油燃烧。

(2)水泵、控制电子阀等因电气故障造成短路起火,引燃管路、油罐、油箱内的柴油。


处置方案:


(1)发电机房内发电机、机房内日用油箱、管路起火燃烧现场,维护人员首先对火情进行判断,确保人身安全。若火势较小,应打开放置于机房内的灭火器进行扑救,控制火情蔓延,火扑灭后应立即将火情通知数据中心消防中控室;若火势较大,应立即撤离现场,并立即将火情通知数据中心消防中控室,由专业消防人员组织扑救,高压油机维护人员应紧急对室内油箱进行泄油操作。

(2)发电机房外部油罐、油泵、输油管道起火燃烧现场,维护人员应查看火情后立即将火情通知园区消防中控室,并应尽快撤离现场,等待专业消防人员组织扑救。


设备替代情况:


(1)单台发电机起火可由处于并机的其它发电机提供备用。

(2)单路输油管理起火可以由备用管路进行替代。

(3)单个室内油箱或室外油罐发生火灾需增加临时供油管路时,从相邻油箱或油罐内补油。


2、供油系统突发故障。当供油系统中油泵、供油控制系统等出现故障,并导致对应发电机组无法正常运行。


原因分析:


(1)电气方面的原因

  • 供油系统控制线路故障,控制系统掉电。

  • 控制柜内各控制各元器件老化损坏。

  • 浮球开关故障,无法给出启停指令。

  • 油泵故障,无法正常工作。

  • 电磁阀无法正常开关。

(2)管道系统的原因

  • 管道系统检修后管道进气。

  • 管路破裂跑油。


处置方案:


(1)电气器件故障采用手动操作补油方式。

(2)采用应急补油装置从邻近油箱、油罐内进行补油。


设备替代情况:


(1)如果一台供油泵出现故障,可启用备用的供油泵恢复供油,以保障供油系统不间断工作。

(2)如果一套供油回路出现故障,可启用该故障回路所属油箱的互备油箱间的连通阀门,以确保供油系统的不间断工作。


预防保障措施如下:


(1)对供油系统进行例行维护、安全检查,监控设备及供油系统的健康状况。

(2)备用、互备供油系统做好例行维护测试、检查,确保应急状态下的成功应用。


应急物资配备。应急物资包括电工工具、管钳、便携式油泵控制箱、电缆、手电、灭火器、对讲机。日常维护中应加强对应急物资性能进行检查,确保性能完好。


上报流程。完善各项安全防护措施;做好人员应急培训与演练;对维护过程中发生的火灾、影响发电机正常运行的重大问题,应在10分钟内及时上报主管部门及数据中心物业消防中控室。


知晓范围与解释。本预案的内容知晓范围,限于本应急预案的上级管理部门及预案内容编制、维护、更新部门的相关工作人员;应予熟练掌握的包括现场动力维护人员及应急保障小组其他应急响应人员。本办法由基础设施维护部门负责解释,自印发之日起实施。


五、基础设施运维应急预案建设建议


各类数据中心应针对本数据中心的地理位置,风火水电等基础资源的配备情况,结合本数据中心基础设施运维的特点,分析本数据中心危险源及意外事件发生的频率及影响,进而建立适合本数据中心的基础设施运维应急处理体系,各类应急预案建立如下:


编号

预案名称

预案重要性

1

《消防灭火应急处置预案》

★★★★★

2

《市电停电应急预案》

★★★★★

3

《停水应急预案》

★★★★★

4

《楼宇逃生疏散应急处置预案》

★★★

5

《监控系统宕机应急处理预案》

★★★★

6

《货梯突发故障应急处置预案》

★★★

7

《防翻越抓捕应急处置预案》

★★★

8

《防群体性冲闯岗位应急处置预案》

★★★★

9

《突发疫情应急处置预案》

★★

10

《人员意外摔伤应急处置预案》

★★★

11

《扫雪铲冰应急处置预案》

★★

12

《防汛应急处置预案》

★★★★

13

《非生产用突发跑水应急演练》

★★★

14

《防风沙应急处置预案》

★★

15

《手动启动气体灭火系统应急处置预案》

★★★★

16

《油机并机失败手动并机预案》

★★★★

17

《水冷空调跑水应急演练》

★★★★

18

《大面积传输中断应急预案》

★★★★

(本文节选自《中国数据中心运维管理指针》,如需购买或转载请留下您的联系电话及邮箱发送留言至本公众号,将有工作人员与您联系)

微信ID:chinadcc

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多