宿 磊,车方毅,雷 杨,洪梅子,李 鹏 (国网湖北省电力公司电力科学研究院,湖北 武汉 430077) [摘 要] 围绕某配电自动化主站发生的一起前置服务器双机切换失败故障的分析及处理过程,从故障现象入手,剖析了故障产生的原因,给出了故障处理的方法和验证过程,并提出了针对性的预防措施。 [关键词] 配电自动化;主站系统;事故分析 0 引言配电自动化是提高供电可靠性、扩大供电能力、实现高效经济运行的重要手段[1],自上个世纪末已经推广应用[2-4]。本文针对某配电自动化主站发生的一起前置服务器双机切换失败导致监控功能丧失的故障,从故障现象入手,梳理了故障发生经过,分析了故障产生的原因,给出了故障处理的方法和验证手段,并在最后提出了针对性的预防措施。 1 故障发生的经过及影响1.1 故障前系统运行状态系统故障发生前,某配电自动化系统SCADA 1号服务器为SCADA应用主服务器,SCADA 2号服务器热备用。两台前置服务器分别采集一半的终端信息,内部应用通过负载均衡的方式实现切换。 按照设计,当1台SCADA服务器出现故障时,备用的SCADA服务器会接管SCADA应用成为主服务器,故障SCADA服务器重新上线后作为备用服务器。2台SCADA服务器的主备关系既可以在故障时自动切换,也可以在操作系统应用中手动切换。当1台前置服务器出现故障时,配电终端与之TCP/IP链接中断,需重新链接至另一台前置服务器。 系统拓扑结构如图1所示。 图1 配电自动化系统主站SCADA与前置服务器拓扑 1.2 事件经过某日早上8点配调监控班人员在工作站操作时发现系统不能正常使用,并通知自动化班技术人员。技术人员发现SCADA 1号服务器宕机,电源灯显黄灯,无法ping通SCADA 1号服务器的IP。技术人员冷启动SCADA 1号服务器,然后启动了SCA⁃DA 1号服务器应用服务,并在工作站上手动进行了应用重启动操作sam_ctl stop,sam_ctl start fast,上述操作后,配电自动化系统主站功能恢复正常。 故障期间,SCADA应用未进行主备切换,导致系统不能正常运行,前置服务器采集的数据不能正常写入数据库,系统丧失监控功能,造成0点57分至8点55分内历史数据丢失。 1.3 故障影响受SCADA应用中断的影响,故障期间系统丧失监控功能,前置服务器采集的数据不能正常写入数据库,造成8 h的历史数据丢失,如图2所示。 图2 终端历史数据曲线 2 原因分析与故障影响2.1 SCADA 1号服务器宕机原因SCADA 1号服务器共配置6组电源模块,采用N-N冗余,即最多可失去3组电源模块而不影响正常运行。 现场观察服务器面板状态指示灯情况,发现其正面指示灯情况正常,背面电源模块1、2、3、4指示灯熄灭,电源模块5、6和6组散热模块指示灯正常,如图3和图4所示。 图3 SCADA 1号服务器正面 图4 SCADA 1号服务器背面 通过登陆服务器板载管理端进行查看,发现系统状态存在4项危急错误,如图5和图6所示。 图5 服务器板载管理端系统状态 图6 故障电源模块的状态 4项危急错误分别为电源模块1、2、3、4失效,导致服务器电源子系统降级运行,服务器系统日志信息如下: 00:35:06 Kernel:Network link is down 00:35:19 OA:Time zone changed to CDT+5 00:35:20 OA:Blade in bay#1 status changed to Un⁃known 00:35:21 OA:LCD Status is:OK. 00:35:21 OA:A CD-ROM Drive was inserted into the Onboard Administrator. 00:35:21 OA:CD-ROM Drive has no media. 00:35:23 OA:Blade 1 is reporting nominal health sta⁃tus. 00:35:23 Enclosure-Link:Service started 00:35:24 OA:Blade in bay#1 status changed to OK 00:35:27 ebipa:DHCPD started successfully for IPv4. 00:35:27 OA:Redundant Onboard Administrator de⁃tected. 00:35:29 Enclosure-Link:Initial topology scan com⁃pleted successfully 00:35:34 OA:PS Subsystem N+N Redundancy-FAILED 00:35:34 OA:Enclosure Status changed from OK to Degraded.(Power Subsystem) 00:35:34 Redundancy:Service started(ACTIVE) 00:35:35 OA:HTTP server is up for IPv4 00:35:35 OA:Onboard Administrator booted success⁃fully 00:35:36 OA:DHCP Monitor:DHCPD is running for IPv4. 00:35:41 OA:PS Status Changed:Bay#1 From:un⁃known To:failed 00:35:41 OA:PS Status Changed:Bay#2 From:un⁃known To:failed 00:35:41 OA:PS Status Changed:Bay#3 From:un⁃known To:failed 00:35:41 OA:PS Status Changed:Bay#4 From:un⁃known To:failed 00:35:55 OA:Internal health status of interconnect in bay 1 changed to OK 00:35:59 OA:VLAN is disabled 08:26:56 OA:Blade in bay 1 has been powered on 08:26:56 OA:Blade 1 is properly cooled. 从日志文件可得出SCADA 1号服务器在0点35分因多路电源模块故障导致服务器宕机,8点26分冷启动成功。 2.2 SCADA主备服务器切换失败的原因按照该系统主备服务器切换的设计逻辑,每一台服务器在需要切换前都需要判断网络链路是否完好。具体实现方式是通过在服务器内配置一个“hosts”文件,在文件中除了设置本服务器A、B网IP地址外,还需要设置服务器所在网段的A、B交换机IP地址。若服务器能ping通相应的交换机,则判断为网络链路完好,然后再进行相应的切换逻辑判断。典型的hosts文件结构如下: #Do not remove the following line,or various pro⁃grams #that require network functionality will fail. 127.0.0.1 localhost loopback ∷1 localhost6.localdomain6 localhost6 192.100.11.172 cxgw1-1 192.100.12.172 cxgw1-2 192.100.11.156 cxsca1-1 192.100.12.156 cxsca1-2 192.100.11.158 cxfes4-1 192.100.12.158 cxfes4-2 200.10.1.1 cxfes4-3 192.100.11.252 switch-1 192.100.12.254 switch-2 200.10.1.252 switch-3 故障发生后,现场查阅SCADA 1号、2号服务器与前置1号、2号服务器的hosts文件,发现其交换机地址均配置为SCADA 1号服务器的IP地址,在SCADA 1号机宕机后,所有服务器均不能ping通SCADA1号服务器的IP地址,各服务器均判断网络离线,SCADA 2号服务器因误判网络离线未进行切换,导致系统应用离线。 3 解决方案与防范措施3.1 解决方案通过修改受影响服务器中的hosts文件内容,将判网络链路状态的IP地址改为各A、B网交换机的IP后,进行SCADA服务器主备切换测试,通过断开网络链接等方式模拟SCADA服务器故障场景,测试过程中服务器能正确进行主备切换,并未影响到SCADA业务,经测试证明结果正确。同时,作为临时措施,保证SCADA 1号服务器电源模块至少有4组可用,并通知硬件维保厂商彻底处理服务器电源故障。 3.2 防范措施(1)此主站在工程验收时进行过所有双重化配置服务器的主备功能切换测试,本次故障因内部配置文件设置错误,导致SCADA功能丧失,应加强现场维护工作的监护管理。 (2)现场查看时发现部分服务器电源模块的运行灯均只有3组显示正常,不满足N-N的配置要求。应加强日常巡视,排查其冗余电源模块功能是否完好。 4 结语本文具体描述了一起配电自动化系统主站双机切换失败故障的现象及分析处理过程,从故障现象入手,剖析了故障产生的原因,给出了故障处理的方法和验证过程,并提出了针对性的预防措施,对配电自动化系统的调试及运维工作的开展有一定的参考作用。 [参考文献](References) [1]郑毅,刘天琪,洪行旅,等.中心城市大型配电自动化设 计方案与应用[J].电力系统自动化,2012,36(18):49-53.ZHENG Yi,LIU Tianqi,HONG Xinglv,et al.Design scheme and application of large-scale distribution automation project for central cities[J].Automation of Electric Power System,2012,36(18):49-53. [2]陈堂,赵祖康,陈星莺,等.配电系统及其自动化技术[M].北京:中国电力出版社,2002.CHEN Tang,ZHAO Zukang,CHEN Xingying,et al.Distribution system and the automation technology[M].Beijing:China Electric Power Press,2002. [3]刘健,赵树仁,张小庆.中国配电自动化的进展及若干建议[J].电力系统自动化,2012,36(19):12-16.LIU Jian,ZHAO Shuren,ZHANG Xiaoqing.Ad⁃vances of distribution automation in China and some suggestions[J].Automation of Electric Power Systems,2012,36(19):12-16. [4]沈兵兵,吴琳,王鹏.配电自动化试点工程技术特点及应用成效分析[J].电力系统自动化,2012,36(18):27-32.SHEN Bingbing,WU Lin,WANG Peng.Technologi⁃cal characteristics and application effects analysis of distribution automation pilot projects[J].Automation of Electric Power Systems,2012,36(18):27-32. Fault Analysis and Treatment of Master Station of Distribution Automation System Hot Redundancy Failure SU Lei,CHE Fangyi,LEI Yang,HONG Meizi,LI Peng [Abstract]This paper focuses on the fault analysis and treatment of the two front-end server hot redundancy failure.Cause of failure is investigated and verification method is presented along with corresponding precaution. [Key words]distribution automation system;master station;fault analysis [中图分类号]TM76 [文献标志码]B [文章编号]1006-3986(2016)11-0032-04 DOI:10.19308/j.hep.2016.11.007 [收稿日期] 2016-10-16 [作者简介] 宿 磊(1989),男,湖北武汉人,硕士,工程师。 |
|