分享

案例 | 北京某数据中心故障原因探讨

 宇智波鼬cjga9r 2016-09-02

事故背景

2016 年 4 月 22 日,某公司北京亦庄数据中心 UPS 升级改造过程中,造成供电中断,导致机房全部设备断电,系统宕机,73 家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国 12 个省份,并造成部分服务器损坏,银行业务最长恢复时间达到 7 小时 32 分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统相继中断。

起因描述

该数据中心的 4 台老旧 UPS 升级,先将 3 号和 4 号旧 UPS(400KVA)换新、由 1号和 2 号旧 UPS 为机房供电,而后再更新 1 号和 2 号 UPS,再此期间使用三台柴油发电机并机运行为 UPS 供电。末端负载为 710kVA,功率因数为 0.95。

为了确保外电源供电正常,由外市电供电改为柴油发电机向 UPS 供电,并且在之前做过柴油发电机带假负载测试。把原来接在柴油发电机组下的制冷系统给退出来了,以便于柴油发电机只对 UPS 系统供电,降低负载,把制冷交给外市电(这是最 N13 的了)。

升级过程中,两台旧 UPS 因负载过高(达到容量的 90%),运行 50 分钟后切换至旁路,发电机直接对 IT 设备供电。12 分钟后三台发电机接连出现“失磁”报警,陆续停止运行,导致机房全部设备断电,系统宕机。并且出现柴油发电机组“脱磁”而退出供电的时间点是新装的 UPS 开机时。

看完以上叙述后,提出以下问题

1. 为什么认为市电供电不安全,柴油发电机组供电就安全了?

2. 为什么要将以感性负载为主的制冷系统退出,不由柴油发电机组进行带载?主要是容性负载的情况下,增加部分感性负载不是很好吗。

3. 为什么发生 UPS 过载,切到旁路供电后;不采取相关应急措施,而是继续进行 UPS 更新操作?

4. 为什么不提前进行相关数据的采集,选择在 IT 负载低谷的时间段进行?

例如:夜间(23:00——06:00)进行 UPS 更新操作。

事故分析

1. UPS 为什么会因负载过高而切换到旁路?

1.1 功率因数为 0.95(感性),UPS 额定容量为 400KVA,末端负载为 710kVA。

经过计算,2 台 UPS 并机容量为 674KVA。此时 UPS 过载 5.3%。如果 UPS 具有PFC(功率因数校正)电路,功率因数为 0.95(容性)时的计算结果和上面一样。

1.2 功率因数为 0.95(容性),UPS 额定容量为 400KVA,末端负载为 710kVA。2台 UPS 并机容量为 614KVA(图一)。此时 UPS 过载 15.6%。

图一(来自老宋聊机房)

1.3 经以上数据反映,UPS 已经过载运行了。所以老旧的 UPS 因负载过高而切换到旁路只是时间长短的问题,并且 UPS 过载运行能坚持的时间不能确定,什么时候切换到旁路也不能确定。所以运维工作人员让已经老旧的 UPS 过载运行,这是不可取的;应尽量规避这种风险,选择在 IT 负载低谷时段进行 UPS更新操作。

图二(UPS 的过载/短路能力)

1.4 图二为 UPS 厂家给出的测试数据(仅供参考)。随着 UPS 的使用和运行时间的增加,UPS 的性能也会有所下降。所以不能脱离实际情况,仅凭测试数据来判断 UPS 性能。特别是老旧的 UPS,其过载能力没有经过专业人员测试,很难判定。

2. 柴油发电机组为什么会出现“失磁”报警,最后“脱磁”而退出供电?

2.1 对于柴油发机组来说带感性负载(吸收无功),具有“去磁效应”;带容性负载(提供无功),具有“增磁效应”。而此时数据中心的负载以容性为主,不是造成柴油发电机组出现“失磁”报警,最后“脱磁”而退出供电的主要因数。

如图三所示:带容性负载会使柴油发电机组容量减额,造成发电机组过载运行。目前,解决柴油发电机组带容性负载的普遍办法,还是增大柴油发电机组总容量;少的为 1.2~1.5 倍,多的为 1.5~2.0 倍(这恐怕是将以感性负载为主的制冷系统退出,不由柴油发电机组带的主要原因吧)。但是在数据中心内的负载还是以非线性和容性为主,单方面增加柴油发电机组总容量不进行谐波抑制,效果并不理想。

图三(发电机功率折算曲线)

2.2 在数据中心设备中能产生谐波的有:控制系统的开关电源、照明系统的整流器、变频器、IT 设备、EPS 电源、UPS 电源等。例如:UPS 产生的谐波,以 6脉冲为例:谐波为 5 次,7 次,11 次,13 次…等。IT 设备主要为开关电源,谐波为 3 次,5 次,7 次,9 次…等。所以数据中心内供配电系统对谐波进行抑制非常必要的。

2.3 谐波对柴油发机组的影响:1.谐波将引起发电机电磁转矩脉动并伴随严重的机械振动,影响发电机组寿命。2.谐波带来大量的热量损耗,降低发电效率,严重时甚至会烧毁机组。3.电枢中的谐波电流会使同步发电机输出电压产生畸变,严重降低电能质量 。

2.4 一般情况把大电网看作无穷大电源,可忽略其内阻。由设备产生的谐波电流对电网电压的影响较小。但是在小容量供配电系统中采用小容量发电机组作为电源,其内阻较大,惯性小,抗谐波电流的能力弱,当有谐波电流流过电机的定子绕组时,同步发电机的输出端电压会发生比较大的畸变。畸变的输出电压不仅会干扰用电设备的正常使用,甚至也会使发电机的励磁系统无法正常工作,引起更为严重的后果(失磁)

图四(发电机的自并励系统)

从图四中可以看出,励磁系统中的 AVR(发电机自动电压调节器)需要经过电压互感器和电流互感器采集发电机输出端的电压和电流来进行电压调节;并且励磁变压器的电源也是从发电机组输出端接入的。所以谐波电流流入发电机时,不仅会影响 AVR 的运行,还会影响励磁机的正常运行;造成发电机的励磁系统无法正常工作,引起更为严重的后果(失磁)。由于为了更好的说明谐波对励磁系统的影响,采用自并励系统(仅供参考)。

现在大容量的柴发电机组一般采用三机励磁,容量较小的柴油发机组采用二机励磁。其中采用永磁励磁机,其抗谐波的能力明显提升。

2.5 所以造成柴油发电机组出现“失磁”报警,最后“脱磁”而退出供电的主要原因是谐波造成的。开机启动更新的 UPS 造成供配电系统内的谐波加剧是事故的诱因。

参考文献/资料

  1. “图一”来自老宋聊机房 《UPS 输出特性和负载特性的匹配》

2.   黎雄 《同步发电机励磁原理培训》课件 

3.   宋鹏超 ,王金全 ,夏 明 ,吕 强 ,杨 涛《谐波电流对同步发电机输出

电压的影响分析》 微电机 2013 年 2 月

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多