分享

案例分享| 数据中心底线场景下的应急演练

 tuzhanbei2010 2022-06-13 发表于四川

张总


小王,最近咱们数据中心运维工作做的怎么样啊?能保障客户业务可靠运行吗?


张总您放心,我们有完善的预防性维护作业计划、严密的MOPSOP文件,35EOP能覆盖所有应急响应场景;同时,我们日常严格执行完善的巡检制度和流程,工程师反复操练,做得很到位,万无一失。

图片

小王

张总


奥!这么有把握,35EOP都包含哪些场景呀?


有双路市电停电、UPS故障、制冷单元故障……

图片

小王

张总


不错,那应急预案都有了,一线人员掌握得都怎样?真上战场的时候,会不会掉链子?


您放心,肯定没问题,我们现场人员每周都会进行演练,大家对这些应急场景都很熟悉,配合也很熟练,比如最严重的双路停电故障,咱的UPS后备时间为15分钟,我们现在能做到在10分钟内完成由柴发供电到末端的操作。

图片

小王

张总


听起来还蛮不错嘛!那我问你,如果双路断电后,值班人员发现柴发没有正常自启动,还能保证10分钟吗?


这个#¥%&*%¥……

图片

小王



底线场景假设:

所谓底线场景,即为多重关联故障叠加场景,就是数据中心出现一次严重故障应急的过程中,又出现了其他次生关联故障,使得多个设备及系统间故障场景混合出现。在这种状况下,能在规定的时间内完成应急操作,隔离故障,保障业务运行不间断,难度非常大,非常考验运维人员在极端场景下对故障的综合处置能力。



图片



案例分享:

以下为汇天云端产业园XX号楼数据中心演练实例。



一、相关配置介绍

图片
(一)供配电系统

XX号楼数据中心电力系统采用双路10KV高压进线,分为两个物理隔离的高压配电室,共12台变压器为全楼的动力系统、IT系统、照明系统、消安防系统、弱电系统等提供电力保障;高压母联为自投手复,低压母联为自投自复;每层楼设两组完全独立的UPS系统,为模块机房的所有机柜提供独立的双路供电,UPS能提供满载状态下15分钟的后备时间。整个供电系统从高压进线到末端机柜PDU,均为物理隔离的2N结构。冷冻水泵、末端空调、弱电系统由独立的动力UPS系统供电。柴油发电机组采用7+1台设计,并机运行。

(二)暖通系统

1、制冷系统介绍:冷源系统采用变频离心式冷水机组+板式换热器+冷却塔3+1冗余配置,水系统管路均采用高可靠双路环形设计,冷冻泵(无二次泵)、冷却泵、冷却塔均采用变频控制。末端精密空调均采用EC直流变频风机。冷冻泵采用UPS供电,蓄冷罐在线式运行,满足满载15分钟后备时间。

2、制冷系统正常运行由BA系统自动控制。


二、演练的场景介绍
图片

10KV供电系统双路失电+柴油发电机系统自启动失败+BA自控系统失效,属于三重故障叠加场景,是数据中心最不利的故障场景。


三、演练的目标
图片

(一)检验基础运维班组人员对基础设备和系统的熟悉程度;

(二)检验运行班组应对突发事件现场处置能力,并验证EOP/SOP文件的可实施性;

(三)训练基础运维班组人员临危不乱的心态,强化班组人员相互之间的协调和配合能力;

(四)强化基础运维班组人员应急响应意识,提高危机保障意识和应急操作能力,熟练应急操作流程。


四、时间与地点
图片

(一)演练时间:2020年9月7---10日 18:30-20:00

(二)演练地点:全楼B1F — 屋面


五、演练人员
图片

值班组:值班长1人(ECC指挥)、班组成员4人。


六、整体要求
图片

(一)演练过程为实地跑位、模拟操作,整个演练过程不能影响现场设备正常运行;

(二)所有人员须严格按照既定方案流程执行,指挥员指令明确,操作员操作规范;

(三)所有操作必须在既定时间内完成,确保15分钟内完成柴发供电和制冷系统恢复。


七、前期准备
图片

(一)技术准备:演练前所有班组成员必须经过电气、暖通等专业工程师培训,对全部模拟操作过程进行整体陈述,并作安全宣贯;

(二)文件准备:执行文件EOP/SOP反复审核,确认可行性以及时间过程的再次深化;

(三)物资准备:准备好所需对讲机、手电筒、绝缘靴、绝缘手套、安全帽、警戒带、安全牌、操作票等。


八、演练过程
图片

2020年9月7日下午18:30左右,汇天XX号楼数据中心A班组5名运维人员像往常一样,在各自的工作岗位上进行着日常工作,突然,对讲机里传来了值班长急促的声音……

 18:30分……

值班长(ECC):动环系统显示B1层高压配电室201、202路失压跳闸/ECC声光报警箱告警,各楼层A/B路多台UPS开始电池放电。请运维人员A马上到B1配电室检查高压进线柜运行状态;运维人员B马上到冷站检查制冷系统运行状态;运维人员C、D马上到室外柴发平台检查柴发启动情况。

运维人员A、B、C、D接到指令后,立刻从不同的位置快速到达指定位置检查相应设备,并通过对讲机向值班长汇报情况。

18:31分……

运维人员A(B1配电室):ECC,经现场检查,高压201路已失压跳闸,且203柴发进线柜未得电,高压202路已失压跳闸,且204柴发进线柜未得电,“已确认高压201、202双路失电,柴发机组未送电至高配,请指示”。

运维人员B(B1冷站):所有冷机、冷却泵已经停机,冷冻泵运行正常,蓄冷罐在放冷。

值班长(ECC):运维人员A,快速检查高压201、202路所有高压馈线开关是否已断开,低压进线开关是否已断开,低压母联开关是否在分闸位。运维人员B,马上到配电室,协助运维人员A做倒闸操作准备,等候柴发情况确认。

运维人员C(室外柴发平台):ECC,经现场检查,柴发未正常自启。

18:33分……

值班长(ECC):立即启动双路失电、柴发自启失败应急预案。运维人员A,请将“203、204柴发进线自动合本柜与自动合馈线柜压板退出,201、202两路低压母联开关切换到手动位。运维人员C,请将柴发馈线柜11.17AH-25及11.17AH-26柜打至就地位。手动将并机柜旋钮打至测试位置,一键启动柴发操作,完成并机。操作完毕后及时通报。

在现场人员操作的间隙当中,值班长电话将故障情况通报给了公司领导、客服、客户对接人。

18:35分……

运维人员C(室外柴发平台):ECC,柴发已全部启动,且完成并机,具备向楼内送电条件,是否送电,请指示。

运维人员A(B1配电室):ECC,高配已具备柴发送电条件,可以送电。

值班长(ECC):运维人员C,立刻向楼内送电。

运维人员C(室外柴发平台):ECC,已合闸,柴发已正常向楼内供电,电压10.5KV,频率50Hz,请高配室确认是否已得电。

运维人员A(B1配电室):ECC,203已得电,电压10.5KV,频率50Hz;204已得电,电压10.5KV,频率50Hz。具备向负载供电条件,请指示。

值班长(ECC):运维人员A,B,请快速完成送电,并注意操作安全,完成后请检查高低压设备运行状态并及时通报。

B1配电室运维人员A、B得到指令后,手动合闸203柴发A路进线柜,手动合闸高压馈线柜211、212、213、214、215、216、手动合闸低压进线开关405、403、503、401、407、501,完成A路送电;手动合闸204柴发B路进线柜,手动合闸高压馈线柜221、222、223、224、225、226。手动合闸低压进线开关404、402、406、502、408、504。

ECC室,随着逐步送电,值班长通过动环系统和BA自控系统检查制冷设备和各层UPS的运行情况。


18:39分……

运维人员A(B1配电室):ECC,已经完成送电,各台变压器及高低压柜运行正常。

运维人员C(室外柴发平台):ECC,柴发运行正常。

值班长(ECC):运维人员A、B,请快速到冷站,确认冷却泵、冷机是否得电,对制冷单元进行告警复位;运维人员D,请快速到楼顶检查冷塔恢复情况;运维人员C,请继续观察柴发运行情况。

运维人员A、B快速到达冷站,分头开始对冷却泵和冷机进行手动复位,一边复位故障,一边通报值班长,故障复位后设备并没有自启,值班长通过BA发送远程启机命令,没有反应……

18:41分……

运维人员B(B1冷站):ECC,制冷单元全部故障已复位,但设备还没有自启动,目前1#、3#、4#冷冻泵运行正常。

运维人员D(屋面冷塔):ECC,冷塔阀门位置正常,1#、3#、4#冷塔风扇已启动,水位正常。

值班长(ECC):启动BA失效应急预案,运维人员A,B,请检查阀门控制柜,确认相关阀门在正确状态,再手动启动制冷单元,运维人员D,请手动将冷塔运行频率设置在48Hz。

运维人员B手动启动1#、3#、4#冷却泵,频率设置35Hz,运行正常 ,运维人员A手动启动1#、3#、4#冷机,冷机缓慢加载。同时运维人员D手动设置冷塔运行频率48Hz,水位正常。

18:44分……

运维人员B(B1冷站):ECC,1#、3#、4#制冷单元已全部启动,冷却泵频率35Hz,1#、3#、4#,冷冻泵运行正常,出水温度12度。

运维人员C(柴发平台):ECC,柴发运行正常,储油量满足12小时,已联系供油站,随时可以供油,4小时能送到现场。

运维人员D(屋面冷塔):ECC,4台冷塔运行正常,运行频率48Hz,水位正常。

值班长(ECC):运维人员A、B、D分头检查全楼UPS、精密空调运行情况、模块机房温度变化情况。运维人员C,继续观察柴发运行情况。有问题及时反馈。

运维人员A、B、D逐层检查各UPS设备、空调设备、模块机房温湿度情况,ECC值班室,值班长通过动环和BA系统查看了各系统运行状况正常,同时打电话给供电局询问电力中断的原因,之后打电话给公司领导、客服、客户对接人汇报现场情况。

19:15分……

运维人员A、B、D完成了全楼所有设备检查,运行正常。

值班长(ECC):本次演练结束,请全部运维人员回到ECC进行本次演练总结。

九、复盘总结

图片

(一)演练过程中,班组成员配合默契,对现场设备点位完全熟知,跑位路线科学适用,紧张有序,在规定的时间内完成了供电和制冷恢复,未对末端设备造成影响;

(二)  通过底线场景下的应急演练,验证了本楼EOP/SOP文件的可行性,检验了运维班组对极端故障场景的处理能力,同时增加了运维人员面对故障场景的自信心,强化了风险意识,锻炼了实操能力,提高了团队凝聚力;

(三) 需要改进的点:

1、演练过程中,出现对讲机喊话之后,未得到对方反馈时,应立即重复

2、话术应进一步打磨,争取话术标准化,进一步缩短时间


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 全屏 打印 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多