分享

铁路运输设备技术状态大数据平台构建方法研究

 GXF360 2018-04-01

0 引言

铁路运输设备是铁路主要生产性资产,是运输组织活动正常进行的保证,铁路运输设备的健康持续稳定是铁路运输生产活动的重要基础。设备技术状态评价就是综合分析影响设备状态的各类指标,利用相关指标数据对设备运行状况进行全面评估[1]。对运输设备状态的科学评价是实现设备状态维修的重要前提。

铁路机务、车辆、电务、工务、供电等专业已建立起一系列设备监测与管理系统,积累了海量运输设备技术状态数据,并呈爆发性增长趋势,形成了包括实时监测、历史故障、检修维护在内的铁路运输设备技术状态大数据。如何利用大数据技术,构建铁路运输设备技术状态大数据平台,实现对铁路运输设备技术状态从投产、运用、检修、维护到报废管理的全生命周期内海量信息的采集、处理、分析与展示,是目前运输设备管理迫切需要解决的问题。在分析运输设备技术状态大数据平台构建涉及的诸多技术方法的基础上,围绕运输设备技术状态大数据平台的数据整合、数据存储、可视化展示等平台构建方法开展研究,将为大数据处理和应用展示提供有力手段。

1 处理流程

要从运输设备技术状态大数据中获得其业务价值,必须经过一系列的大数据处理及应用流程,包括聚集数据、存储数据、分析数据和利用数据等基本环节(见图1)。

图1 运输设备技术状态大数据处理及应用流程

(1)聚集数据。运输设备技术状态专业管理系统中产生了大量的非结构化文档、日志、视频监控数据等,需要建立企业级的运输设备数据架构,对运输设备技术状态数据进行采集、清洗和管理,实现大数据平台数据的聚集。

(2)存储数据。对于聚集的海量数据需要建立统一的数据模型,基于NoSQL、分布式文件系统、分布式计算框架等大数据处理技术,实现不同应用数据库之间的整合,完成企业主数据存储管理。

(3)分析数据。大数据的潜在价值产生于大数据的分析过程,需要根据不同业务应用的需求从异构数据源抽取和集成相关数据,从中挖掘分析潜在的重要数据价值,为运输设备技术状态管理提供辅助决策依据。

(4)利用数据。利用数据是大数据分析结果的展示及合理利用,是大数据处理的最终环节,该环节与用户关系最紧密。大数据分析结果往往是海量的、关系复杂的,需要引进新的大数据展示和分析技术,通过这些技术,可以让用户更好地分析和管理数据。

大数据平台的构建主要围绕上述4个环节开展技术研究。

2 整合方法

数据整合(Data Consolidation)是通过改进现有ETL(Extract-Transform-Load)技术、文件适配器技术等,引入新型、分布式、高速可靠的数据爬取和采集等数据处理技术,重点攻克针对大数据源的智能识别、适配、传输、接入与压缩技术等,把不同数据源的实时数据、数据库数据、文件数据等海量的多类型数据进行收集、整理、清洗、解析、转换与加载,形成到一个新的数据源[1],为数据使用用户提供全新、统一的数据视图式的数据集成方式。

数据整合可以实现对海量结构化、非结构化数据的全面采集及预处理,保证数据在采集交换过程中不丢失、不失真、安全高速流转[2-7]

2.1 数据源分析

铁路运输设备技术状态数据主要来源于机车、车辆、供电、工务、电务等各专业系统,包括结构化、半结构化及非结构化的数据,数据内容包含设备基础履历、日常监测、检修维护等记录数据,以及音频、视频监控录像及图像等数据,同时,为开展基于大数据的铁路运输设备状态综合分析,需要接入其他铁路相关系统数据。此外,接入天气、地震等外部系统数据进行关联分析也将具有现实意义,平台的主要数据源见表1。

2.2 实现方法

运输设备技术状态数据整合的目的是对各类运输设备技术状态相关信息进行整合,加载到大数据存储平台,运输设备技术状态数据整合分为数据采集和数据处理2部分。运输设备技术状态整合将采用ETL技术作为核心理念,大数据整合技术实现架构见图2。

(1)数据采集。通过智能数据采集适配器Webservice、FTP/SFTP等,研究统一的运输设备技术状态数据接口,将运输设备状态数据从既有专业系统中灵活接入到本平台中,采集的数据包括结构化数据、半结构化数据、非结构化数据和实时数据等。

结构化数据采集:目前运输设备技术状态数据来源于运输设备专业管理系统,存储于专业系统的关系型数据库中,各专业系统的关系型数据库信息利用统一标准化的数据接口,采用sqoop采集到大数据平台,大数据平台数据采集前置机数据库为MySQL。

表1 铁路运输设备技术状态大数据平台主要数据源

数据分类 数据来源 数据内容机车电子档案管理子系统 机车静态履历信息机务运行信息自动采集子系统机务机车运行轨迹、机车牵引总质量、机车走行公里等数据机车整备管理子系统机车整备记录、检测数据(走行部、受电弓等)、质量数据(机统6)等机车检修管理子系统检修记录、检测数据(如探伤、化验、几何尺寸)、试验数据、质量数据等中国机车远程监测与诊断子系统(C M D)T C M S、6 A、L K J等机车监测系统的实时监测数据、故障数据动车组管理信息系统 动车组运用、检修、维护数据车辆K M I S系统 客车运用、检修、维护数据H M I S系统 货车运用、检修、维护数据5 T系统货车T H D S、T P D S、T A D S、T F D S和客车T C D S实时监控数据、报警数据及处理数据铁路工务管理系统(P W M I S系统)线路、道岔、桥梁、涵渠、隧道等线路基础设备的静态信息和动态技术参数信息工务铁路工务安全生产管理系统轨道几何检查仪、钢轨伤损、轨道结构、综合巡检、桥隧涵、路基沉降和冻胀、周边环境检查数据,设备故障信息以及故障处理信息工务专业检测监测系统检测数据包括轨道几何、动力学、线路状态评价,以及桥梁健康状况和环境灾害等数据高铁接触网“一杆一档”系统接触网设备全生命周期内的基本参数及变化数据供电牵引供电管理信息系统 人工检测供电设备的作业数据高铁供电安全检测监测系统(6 C系统)供电动态检测数据通信通信设备基础履历数据,包括设备基本信息、静态信息综合网管系统 网管设备动态监测设备的状态数据动力环境监控系统 动力环境监测数据,动力及环境监测动态检测监控数据通信履历簿管理系统动态检测车系统动态检测车监测数据,动态检测车检测的通信检测报告、问题及处理数据等移动设备维修管理系统 车载通信设备监测信息信号设备履历系统信号设备基本信息、各种信号设备图纸,如站场平面图、轨道电路图、原理图、结线图、配线图、信号联锁表、列控设备安装图等信号入所检修系统 检修计划、计划兑现情况、标准化作业流程、检修记录、问题库等信号集中监测系统 工作状态、通信状态等的开关量和模拟量数据信号动态监测系统 信号设备监测数据、报警数据其他 外部相关系统 天气、自然灾害等外部相关数据

图2 运输设备技术状态大数据整合实现架构

实时数据采集:利用分布式消息队列Kafka进行部分运输设备技术状态实时数据的采集,将消息生产的前端和后端服务架构解耦,由数据生产者、数据消费者以及存储节点组成,将部分实时生成的数据接入到运输设备大数据平台中。

半结构化数据及非结构化数据采集:目前,系统的监控日志、检测报告等均以数据文件的形式进行保存,在设备状态动态检测系统中也产生大量的非结构化数据,如图像、影音数据等,因此,大数据平台将利用Flume把产生的大量文件从各专业设备监控管理系统服务器采集到平台的HDFS中。Flume是一个高可靠的、高可用的、分布式的海量日志采集和传输系统,它能从文件(text)、日志系统(syslog)、UNIX tail、命令执行(exec)等多种数据源上收集数据,可将多个专业应用系统服务中产生的日志文件、检测报告、图像数据等采集到数据服务平台的HDFS中,实现非结构化的数据采集并存储到数据平台的非结构化数据存储单元中。

(2)数据处理。运输设备技术状态大数据平台的数据处理主要包含数据抽取、清洗、变换等。常用的数据处理技术有传统的ETL、Hadoop ETL和流式计算ETL。传统ETL主要用于对结构化数据进行处理;Hadoop ETL主要用于对半结构化以及非结构化数据进行处理,通过元数据定义数据抽取规则,定制相应的ETL,并且通过数据管控模块对ETL流程、数据质量进行实时监控和管理。

从运输设备专业系统数据源到运输设备技术状态大数据平台的过程中,会出现数据类型不匹配、数据约束错误等各种问题,通过制定合理的数据清洗策略,对数据进行清洗、变换、加工等预处理操作,使加工后的数据满足目标数据库的要求。

3 存储方法

对于铁路运输设备技术状态大数据平台将采用关系型数据库与非关系型数据库相结合的方式,实现对铁路运输设备全生命周期履历管理、数据挖掘、信息共享及大数据应用分析的需要。平台的存储将按照Hadoop体系结构,通过HDFS实现对分布式存储的底层支持,运输设备技术状态大数据存储模型见图3。

(1)分布式文件系统HDFS具有自动冗余、扩展性好等特征,能支撑高吞吐量的数据访问,是具有高度容错性的系统,非常适合大规模数据集上的应用,适合部署到X86等低成本、一般配置的硬件上,可作为数据服务平台存储的基础。在HDFS之上可采用HBase、Hive等分布式数据库或数据仓库产品为应用系统提供面向SQL或类SQL的数据接口。对于运输设备技术状态大数据平台,利用X86服务器采用基于HDFS的大数据存储服务系统作为统一的底层分布式文件系统,运输设备技术状态相关数据都汇聚存储在HDFS之上,HDFS同时支持Erasure Code功能以及HDFS文件加密存储,HDFS主要有2类节点:NameNode和DataNode。在运输设备技术状态大数据平台的部署中,一般是30个节点选取1个NameNode与1个备用的NameNode作为热备,其余28个节点全部作为DataNode使用,副本数量为3个,每个块的大小为128M。

(2)铁路运输设备技术状态大数据平台的元数据、主数据、部分管理及运维类应用的底层数据主要采用关系型数据库MySQL进行存储,还可满足与原有专业系统数据进行交换和联合查询的需要。关系型数据库作为分布式文件系统与分布式数据库的补充和强化,满足各类基础结构化数据的存储需求。

(3)Hive是建立在Hadoop上的数据仓库基础架构,参照该架构,将数据整合层集成的运输设备技术状态数据构建面向运输设备全生命周期管理和分析集成的数据仓库,包含面向运输设备履历主题域、运输设备故障分析主题域、运输状态评价主题域、运输设备安全风险识别主题域、运输设备智能维修主题域等方面。并根据不用级别、不同类型用户对运输设备管理及挖掘分析的实际需求,构建多角度、多维度的数据集市,如机务设备故障诊断数据集市、机务设备状态评价数据集市、机务设备风险识别数据集市、车辆故障诊断数据集市等,为开展基于大数据的挖掘分析提供主题数据基础。

(4)铁路运输设备技术状态大数据平台的非结构化数据和半结构化数据(如图像、视频、音频、检测报告等)主要采用分布式数据库HBase进行存储。HBase可解决关系型数据库在处理海量数据时的局限性,满足海量数据的OLTP类秒级检索查询和OLAP类高速数据分析应用需求。HBase由管理服务器(HMaster)与多个数据服务器(RegionServer)组成。HMaster负责平台中表的创建、删除和维护以及Region的分配和负载平衡;RegionServer主要负责管理维护Region以及响应读写请求。Client与HMaster进行有关表元数据的操作,之后直接读写RegionServer。在运输设备技术状态大数据平台的实际部署中,一般配置规模是:30个节点,3~5个HMaster,除了NameNode角色的28个节点全部作为RegionServer使用,HBase存储采用压缩存储,存储块HFile大小为7G,缓存Flush大小一般设置为128M。

图3 运输设备技术状态大数据存储模型

(5)运输设备技术状态大数据平台的数据分发同步处理主要包括数据分发同步、数据处理引擎、数据聚合服务、数据查询服务等。其中,数据分发同步支持数据在各种不同存储空间进行交换、同步和分发;数据处理引擎可根据业务需求对不同存储中的数据进行数据转换和处理;而数据聚合服务可按不同场景应用需要构建数据集市和数据仓库;数据查询服务可统一不同存储方式下的数据查询方式,形成高效的数据索引规范,便于数据查找和整合[8]

4 可视化方法

对于运输设备技术状态大数据平台形成的复杂或大规模异型数据集,如状态评价、故障诊断、状态风险因素分析等,其分析展示技术单靠传统的统计图表方式是无法满足的,需要借助数据治理、数据分析、数据挖掘等一系列复杂数据加工过程,辅助直观有效的可视化展示,实现运输设备技术状态的综合管理。

运输设备技术状态大数据可视化实现思路是采集处理运输设备技术状态动静态信息,综合运用大数据、计算机图形学、图像处理、地理信息、人机交互等技术,将大数据平台处理转换后的数据变换为用户可识别的图形符号、图像、视频或动画,便于各种类型的系统数据用户从中洞悉、挖掘运输设备技术状态大数据信息背后隐藏的多维多角度的价值信息和相关知识[9],从而为设备管理和检修维护等工作提供辅助决策支持。

4.1 全生命周期履历时序数据

按照“一单元一档案”的管理原则,对每个具体的运输设备单元全生命周期内的动静态信息进行有效串联,形成完整的运输设备全生命周期技术状态档案的时序数据,结合大数据时序可视化技术,实现全生命周期履历信息大事件的可查询、可追溯、可分析,为故障诊断更准确、维修养护更科学提供理论依据。为保证设备全生命周期电子履历信息的时间连贯性,采用时间线法的时序可视化为框架构建复合的多维时序数据,对设备履历数据信息进行可视化分析展示,时间线法以全生命周期的时间数据为轴线,按照时间顺序用文本、图片等方式显示全生命周期关键履历信息,其具体实现流程见图4。

首先完成运输设备全生命周期技术状态履历大数据信息的采集、抽取、整合和预处理等,包括对结构化数据以及非结构化数据的数据处理。然后,利用开源时间线技术构建运输设备全生命周期时间轴架构,并按可视化及用户交互的需要进行数据转换。之后,对于每个设备故障发生点关联其关键指标参数数据,在故障发生时间节点进行参数数据的折线图显示。最后,将设备全生命周期的履历节点信息结合文本、图像等进行基于“时间线+折线图”的多维时序可视化展示。具体实现界面见图5。

图4 运输设备全生命周期履历多维时序数据可视化实现流程

图5 运输设备全生命周期履历可视化实现界面

4.2 运输设备空间数据

铁路运输生产活动要在四通八达的铁路线网上完成,铁路运输设备也要沿铁路线分散在全国,因此铁路运输设备具有种类繁多、部署分散的特性,运输设备的地理属性是运输设备技术状态管理与分析的重要内容。

铁路运输设备技术状态相关地理数据是设备各种地理特征和技术状态之间关系的符号化表示。按照平面空间的基本元素划分,运输设备技术状态的地理数据可划分为点数据、线数据和区域数据3类[10]。运输设备空间地理相关数据可视化实现流程见图6。

铁路运输设备空间地理数据可视化的第一步依然是对于空间地理信息采集、抽取与数据处理。然后,对点数据、区域数据进行标识,并结合设备技术状态多维属性信息,采用地图与其他多维数据可视化关联的方法来展示铁路运输设备空间多维属性信息。

平台基于“Supermap+html 5”技术实现空间数据的可视化。对于点数据可视化主要用于设备的分布展示,并结合设备技术状态信息对该点进行雷达图、饼图等展示。而对于区域数据多维属性可视化,通过在地图上标识区域,并结合统计图表、折线图、饼状图等对区域内运输设备多维属性进行展示。线数据可视化主要应用于机车、车辆的运行历史轨迹追踪,实现车辆历史数据轨迹动态可视化呈现。设备空间可视化实现界面见图7。

图6 运输设备空间地理相关数据可视化实现流程

图7 设备空间可视化实现界面

4.3 设备状态分析多维数据

结合数据挖掘技术等实现运输设备状态分析的多维数据可视化,是铁路运输设备故障诊断、设备状态评价、安全风险源识别、安全风险评估必不可少的重要手段,其实现流程见图8。

图8 运输设备状态分析多维数据可视化实现流程

设备状态分析多维数据可视化大多是基于统计分析的多维度多角度分析,因此,主要采用百度的E-chart技术,结合统计分析图表,对于运输设备技术状态开展趋势分析、关联分析、性能分析等多维可视化分析。多维数据可视化实现界面见图9。

图9 运输设备状态分析多维数据可视化实现界面

5 结束语

以铁路运输设备技术状态大数据平台的实际应用为出发点,围绕大数据平台构建过程中涉及的关键技术及方法开展研究,包括铁路运输设备技术状态大数据整合方法、大数据存储方法、大数据可视化方法等,为铁路运输设备技术状态大数据平台搭建提供可行的理论基础及实现方案,为运输设备技术状态的综合监测与评价提供技术保障及平台支撑。

参考文献

[1] 杨鹍. 基于语义的金融行业大数据整合及处理技术[D]. 杭州:浙江大学,2013.

[2] 刘义德,梁坚. 智能电网大数据处理技术现状与 挑战[J]. 科技创新与应用,2015(29):184.

[3] 周国亮,朱永利,王桂兰,等. 实时大数据处理 技术在状态监测领域中的应用[J]. 电工技术学报, 2014(S1):432-437.

[4] 张少敏,毛冬,王保义. 大数据处理技术在风电机 组齿轮箱故障诊断与预警中的应用[J]. 电力系统自 动化,2016,40(14):129-134.

[5] 李晓飞. 基于云计算技术的大数据处理系统的研究[J]. 长春工程学院学报:自然科学版,2014,15(1): 116-118.

[6] 金雯婷,张松. 互联网大数据采集与处理的关键技 术研究[J]. 中国金融电脑,2014(11):70-73.

[7] 王同军. 中国铁路大数据应用顶层设计研究与实践[J]. 中国铁路,2017(1):8-16.

[8] 李青. 基于NoSQL的大数据处理的研究[D]. 西安: 西安电子科技大学,2014.

[9] 任磊,杜一,马帅,等. 大数据可视分析综述[J]. 软件学报,2014(9):1 909-1 936.

[10] 王瑞松. 大数据环境下时空多维数据可视化研究[D]. 杭州:浙江大学,2016.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多