本篇1561字10图 1. 故障现象 观测用户反应Weahter View界面上的QFE、QNH数据每隔一段时间总是丢失十几秒钟,然后恢复。其它数据显示正常。 2. 设备背景 单跑道运行,传感器按规范标配 Modem转光纤传输,双CDU运行 QFE与QNH计算首选上图右侧方向气压计 3. 故障排查 3.1 无事件告警且通信正常 Event Monitor中无任何TECH或NONE类型事件告警 两端自动站对应的Modem模块CD灯常亮 3.2 历史数据异常 3.2.1 气压历史数据 查看气压的历史数据文件发现了异常,气压数据以1分钟为单位进行历史存储,但有缺失。 主用CDU气压历史文件 如图,主用CDU服务器上存储的气压数据记录有周期性丢失,每隔10分钟发生3次数据丢失,逢2、3、4就没有整条数据记录。 备用服务器气压历史记录 对比备用服务器上的气压数据历史记录也发现,每隔10分钟发生1次数据丢失,逢4即整条数据记录丢失。 3.2.2 全部历史数据 继续排查发现同一天历史记录,不仅气压数据,包括RVR、云高、风在内的所有数据,都出现了周期性记录缺失,且丢失时次、频次高度一致。 主用服务器历史记录 备用服务器历史记录 从这四类数据的时间组截图即可一目了然记录缺失情况,其中气压、RVR、云高以1分钟为单位记录,丢失时次一致,风以30秒为单位记录而丢失时次略不一致,但丢失周期都是每10分钟出现。 3.2.3 分析与怀疑 此时再次确认Event Monitor没有任何TECH或NONE类型告警,大致判断所有自观数据在进入CDU处理前均正常,在CDU处理过程中数据出现“丢失”,导致历史记录周期性整条缺失,而显示界面上,只有气压相关的QFE、QNH出现缺失,其它数据并未发生明显丢失。 怀疑操作系统问题或病毒原因,双服务器同时出现相同的系统问题,在谨慎准备断网查杀前,注意到一个不常见的疑点——本应按分钟顺序生成的时间组出现了缺失,导致此时间点的数据记录也无法写入。由此定位到了时间同步这个故障点。 4. 故障排除 双CDU运行,整个自观网络没有使用域控制下的时钟同步功能。 4.1 时钟运行背景 其主要利用第三方软件实现全网络时间同步,此方式已运行多年,未出现时间同步相关问题。如下图从技保部门引接来的RS232时钟同步信号。 单独的电脑终端运行“NTP授时服务器”软件,使本机时间为标准时间,自观网络内的CDU服务器和各网络终端均使用“NTP授时终端”软件通过IP实现时钟同步,设置15秒的自动校时间隔。 4.2 Internet Time Setting同时运行 检查NTP软件都运行正常,在查看CDU系统时间的设置时,发现主用、备用服务器均设置了“Internet Time Setting”功能,地址就是NTP服务器的IP,时间间隔正是10分钟。 4.3 “10分钟”间隔 由上图的10分钟同步间隔恰好吻合了故障记录丢失的周期性,说明此时间同步肯定出了问题,关闭此项设置后,历史数据记录恢复正常,界面气压数据丢失情况也就此消失。 5. 排故思考与建议 5.1 只用一种同步机制 关于时钟同步,之前分享过两篇文章 其中介绍了三种时钟同步方法:①配置Windows Time服务(Vaisala域控制策略),②Internet时间设置,③第三方软件。 本案例同时使用了②③方法,想实现同步双保险,却发生时间紊乱,引发存储丢失、界面数据/////等问题,出现紊乱的具体原因尚不清楚。 实际运行建议是:不管哪种方法,只使用一种同步机制即可 5.2 数据缺失的两种类型 本案例是以用户发现QFE、QNH间断丢失而发现异常的,AWOS 500+之前分享过一个旧案例: 对比两个案例中历史数据记录的丢失情况: 旧案例(左侧)的历史文件,时间组按分钟依次排列,后面的数据项目出现偶发丢失,显而易见,故障点应在传感器或传输线路上。 本案例(右侧)的历史文件,整条记录缺失,最基本的时间组出现周期性缺失,加之Event日志无任何告警,自观存储服务未能得到系统时间,进而影响数据写入。故障点理应聚焦在操作系统上,再进而排查到时钟同步的问题上。 两种类型的数据缺失,指向不同的故障点,这也是本案例突破的关键点。 |
|