分享

大数据平台在铁路货运中的应用研究

 gaogaoyishi 2023-10-06 发布于云南

刘 婷,谢孟霞,王 婷,张 琦

(中国铁路哈尔滨局集团有限公司信息技术所,哈尔滨 150006)

数据是一种资产,也是一种生产要素,可以提供强大的决策力,随着时间的沉淀,最终会成为海量的、高增长率的、多样化的信息资产。在大数据的分析与应用盛行的时代,大数据技术已经深入到各行各业之中,其地位也在日益凸显。在大数据战略的背景下,吹响了加快发展数字经济、建设数字中国的号角。标志着大数据正式成为我国战略规划的核心任务之一,研究和发展大数据技术已经成为必然趋势[1]。

铁路货运是我国交通行业的重要组成部分。随着货运组织改革的不断推进,中国国家铁路集团有限公司已相继推广了货运电子商务、调度、现车及货票等主干货物运输支撑信息管理系统,目前已累积大量数据。据初步统计,国铁集团及各铁路局集团公司存储的数据总量已达到10 PB的数据级[2],且各类数据增量很快,所以中国铁路货运正处于大数据时代。

1 铁路货运大数据现状与解决方案

1.1 铁路货运大数据存在的不足

1.1.1 货运系统的建设过程中,各管理系统比较独立

随着信息化的不断建设,哈尔滨局集团公司已完成了货运电子商务系统、东北快运系统、货票系统及货运站系统等货运业务系统推广工作。首先,在这些系统陆续推广与使用后,每天会产生大量业务数据,但是各系统之间耦合度不高,大部分数据只在系统内部进行分析,缺少横向综合对比,这直接限制了系统发挥更大的作用,对于数据背后的价值不能进行深入地挖掘。其次,数据共享备份不够,如果各业务系统出现故障,将会产生数据二义问题。最后,特别是数据字典需要多方提供,不能避免数据有冲突,所以需要加强统一管理维护。因此,需要将各信息系统的数据进行集中整合,才能更好地服务于铁路货运业务。

1.1.2 数据源录入不够准确

数据是业务分析和指挥决策的基础,如果基础数据不准确将严重影响数据的分析结果,因此数据的准确性对大数据平台的应用效果起到重要作用。目前,由于铁路货运中各个系统的基础数据均是由车站人工录入,在录入数据的过程中,数据标准化程度不高,影响数据质量。同时在录入过程中也存在数据不一致和数据不准确的问题,这会直接导致后续对数据的操作及得出的结论失去意义。

1.1.3 数据分析技术能力不足

数据分析是一个清理、转换、进行数据建模的过程,从而得出结论并支持决策。目前数据分析统计仍采用传统的手工统计或数据库技术,而使用数据处理技术进行大数据的应用分析缺少专用技术与工具的支撑,数据的可用性不强、时效性低,对决策不能提供很好的数据支持。

1.1.4 铁路货运数据共享模式不成熟

数据共享的目的是为了提高信息的利用率,减少“信息孤岛”效应。在数据采集、整合等方面也会节约一定的成本。但是由于目前各部门之间的合作模式不清晰,有些铁路业务数据是不愿意提供的,从而加大了数据采集的难度。因此,如何达成不同部门之间的合作共赢模式成为了数据融合的先决条件。通过有效的措施促进数据融合,从而形成覆盖更大领域的数据集合,全面深化大数据的应用范围,真正地为各项决策提供数据支持。

1.2 数据整合的解决方案

1.2.1 做好数据质量保障工作

数据的质量决定着大数据平台的效果,做好数据质量的保障工作是发挥大数据平台作用的前提。首先,通过考核制度提高操作人员的技术水平,尽可能保证数据在录入阶段的准确性。避免因为初始数据的错误录入而导致后续操作失效的问题发生。其次,在数据交换过程中需要完善的制度标准,明确交换机制及双方责任,有效地执行数据交换标准。最后,可以通过开发适合公司的数据管理系统,在采集数据后对数据进行有效清洗并做到规范化,为后期数据挖掘和分析提供更高质量的可信数据。

1.2.2 建立数据仓库

数据仓库是用于数据管理的工具,构建数据仓库可以提供一个支持决策分析的环境,从不同的数据源中获取数据、组织数据,进而更加有效地进行业务决策。将目前与铁路货运相关的生产系统中的数据进行提取与清洗,并存储到数据仓库中,在经过筛选处理可以提高数据的价值。

1.2.3 数据安全治理

在数据采集、处理和共享等方面都存在安全威胁,在大数据时代确保敏感数据的安全性尤为重要。铁路货运大数据平台存储与处理不同安全级别的数据,在数据共享的同时会带来更多的安全隐患,所以需要建立一套完善的、覆盖数据整个生命周期的数据安全保障体系。同时可以通过大数据平台安全评估体系,来进一步确保数据安全。

2 大数据平台架构及关键技术

建立铁路货运大数据平台首先要梳理出现有的数据资源,明确大数据平台的应用主题,对于梳理好的数据经过数据治理后加载到大数据平台,通过大数据平台应用层进行分析和综合展示,提供有效信息、支持决策[3]。建立铁路货运大数据平台主要分为建立数据采集层、数据传输层、数据存储层、数据分析层及数据展示层5个层面,如图1所示。

图1 铁路货运大数据平台架构

2.1 平台数据采集层

铁路货运大数据主要分为铁路综合办公网生产数据和互联网类数据2种。货运电子商务系统、东北快运系统、货运调度系统、货运计划系统、现车系统、货运站系统及货票系统是铁路内部数据的主要数据源。铁路是运输服务型企业,需要时刻关注政府的发展规划,客户的需求与反馈意见,以及经济政策和市场动态等多方面信息,还需要掌握公路、水路价格及相关运量数据,这些互联网类的数据对铁路货运业务拓展也起到指导性作用,可以为集团公司后期的决策分析提供支持。

通过网络爬虫技术获取万维网数据,同时为了提高抓取性能,加快抓取速度,货运大数据平台采用Java多线程技术,并行处理多个URL连接,从而实现快速且高效的信息采集;同时采用广度优先策略,以分层的方式进行网页抓取,可以大大降低服务器的内存消耗。

2.2 平台数据传输层

数据传输层包括铁路综合办公网及互联网。内网与外网间采用铁路安全平台进行阻隔,确保互联网数据安全传输到内网进行使用,有效保护铁路内部办公网络的安全。集团公司与各货运站段之间数据传输则采用铁路办公网作为网络载体。

2.3 平台数据存储层

由于铁路货运业务系统中的数据都是格式化数据,均以关系型数据库的方式进行存储,主要数据库产品为Oracle数据库。目前铁路货运业务也存在一些检测类的辅助系统,其数据是以音频或视频等形式存储的,这部分数据量较大,且不适合存储到数据库中,因此这部分数据需要采用分布式文件系统(HDFS)方式进行存储。而对于互联网获取的数据需要通过专业软件产品(如Sqoop等),将数据转化为文件方式进行存储。

2.4 平台数据分析层

由于大数据数据类型分为结构化数据和非结构化数据2种类型,所以数据分析层分为结构化数据分析与非结构化数据分析。

结构化数据是经过处理后并加载到关系型数据库中的数据,而结构化数据分析已经是一种逐渐趋于成熟的技术[4]。在铁路货运业务中,结构化数据分析可以通过各生产系统建设的数据仓库进行研究。例如分析数据量庞大的电子运单数据时,可以采用数据仓库的联机分析处理(OLAP),OLAP作为一种多维查询和分析工具,不但提高了查询速度,使数据库中大量数据得到有效地利用,同时也降低了服务器的性能损耗,如图2所示。

图2 OLAP架构

非结构化数据是音频、视频和图片等文件,非结构化数据是不满足任何预定义模式的数据,可以加载到NoSQL等非关系型数据库中。通过传统的数据分析技术是不足以处理这类数据的。非结构化分析基于Hadoop、Spark等框架进行研究。其中对于分布式数据处理的抽象层次不高时,采用Hadoop分布式文件系统对数据存储并处理;Hadoop分布式文件系统(HDFS)是Hadoop应用中一个最主要的分布式存储系统。一个HDFS集群主要由1个元数据管理节点(NameNode)和很多个数据节点(DataNode)组成:NameNode管理文件系统的元数据,而DataNode存储了实际的数据。而对于需要使用机器学习及批处理等技术时,则使用Spark框架。主要采用的算法包括回归分析、统计分析、神经网络、支持向量机及深度学习等基础算法,如图3所示。

图3 Hadoop分布式文件系统(HDFS)架构

2.5 平台数据展示层

目前在数据展示方面应用较多的工具是润乾报表,通过润乾报表可以根据自己的需求制定复杂的报表并进行数据分析。可以通过引入ECharts等第三方图库进行特色展示。基于html5 Canvas的ECharts是一个纯Javascript图表库,兼容大部分浏览器。ECharts可以提供更直观、更生动的数据可视化图表,并且支持交互和个性化定制,满足个性化需求。具有丰富的可视化类型,通过散点图、折线图、柱状图、饼图、雷达图、K线图、热力图、漏斗图和仪表图的形式进行数据展示。此外ECharts提供了动态类型切换功能,让用户可以根据需要切换相应的图表类型和堆叠状态。同时也可以通过平台本身的数据展示模块进行数据动态的、实时的重绘操作。

3 大数据平台实施步骤

大数据平台的建设并不是一蹴而就的,需要不断地探索与修正。大数据平台的实施步骤主要分为以下几部分。

3.1 业务分析并确定大数据平台应用主题

业务分析主要包括对货运业务流程和需求的分析、确定数据源,通过对用户需求的调研明确分析目标和思路,确定要导入哪些数据、要得到哪些信息,从而确保数据分析有效进行。货物运输是铁路行业的核心支柱产业,在市场经营领域围绕货运业务,通过搜集货票数据、货运电子商务系统计划数据及更多货运系统的数据,可以进行货运业务额盈亏分析。通过对用户行为的大数据分析可以进一步提高市场营销能力。

3.2 数据规划

数据规划包括通过对业务调研进行统一编码并确认,盘点已有数据资产,完善数据管理标准有效进行数据规范等,加快数据资源的整合共享[5]。

3.3 设计逻辑模型和物理模型

通过对原始数据进行分析,建立实体模型、建立数据库逻辑模型等来完成逻辑模型的设计。集团公司的大数据平台仍然处于探索阶段,初期应采取全开源架构,随着研究的不断深入再考虑更成熟的商业方案。在完成逻辑模型的设计后将其转换为物理模型,并进行压力测试与性能测试,提出优化方案。

3.4 系统推广

围绕着已经明确的项目意图和商业目标让大数据真正地应用起来,通过数据挖掘得到有商用价值的信息为铁路货运业务提供数据服务与决策支持。

4 结束语

铁路货运大数据平台的建设是一个不断探索的过程。不仅需要分析铁路货运业务需求,形成铁路货运大数据的建设规划,也需要借鉴其他领域的大数据项目。经历不断的验证、修正、实施,来逐渐完成大数据平台的建设。铁路货运大数据平台将成为重要的资产数据、提供数据服务、通过预测分析能力支持哈尔滨局集团公司的各项决策。构建适合哈局货运业务发展的大数据平台,将提高挖掘货运数据价值的能力,成为货运业务增收的重要手段。铁路货运大数据方面的研究成果也可以逐步延伸到集团公司经营、生产、安全等领域,充分利用大数据技术,发挥其在提高效率、提高效益、优化服务、保障安全方面的作用,是集团公司在新时期的必然选择。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多