分享

速览——铁路数据服务平台开放共享关键技术

 gaogaoyishi 2023-10-05 发布于云南


图片

图片

0 引言

图片

随着铁路信息化水平的不断提高,铁路大数据存储、分析和共享的需求日益增加,中国国家铁路集团有限公司(简称国铁集团)先后发布了《铁路信息化总体规划》和《铁路大数据应用实施方案》,构建了铁路大数据应用顶层设计。按照顶层设计要求,铁路数据服务平台(简称平台)已完成研发并在武清主数据中心、中国铁路北京局集团有限公司、中国铁路太原局集团有限公司等单位陆续落地,为促进铁路信息资源共享和信息系统互联互通奠定了技术平台基础。

平台具有海量数据采集、存储、治理、分析、共享的数据服务能力,可统一为战略决策、运输生产、经营开发等业务应用提供基础数据、共享数据和大数据分析服务,平台总体架构见图1。

图片

图1 平台总体架构

图片

1 基于元数据的统一权限体系与数据共享流程

图片

元数据是描述数据的数据,在平台内用于对数据及信息资源进行描述与定位。元数据管理贯穿数据共享流程始终,记录了数据的定义、归属、结构、更新、权限、备注等各类信息。通过研究面向数据共享的元数据存储管理模型,以覆盖数据全生命周期管理。对数据接入、数据存储、分析应用、共享服务建立全流程的元数据管理,可实现数据的血缘分析与安全控制。

1.1


基于元数据管理的统一权限体系

平台提供元数据全生命周期管理功能,覆盖数据集成、数据质量稽核、数据清洗治理、数据分析应用等各个环节,通过统一的元数据管理模块,记录数据权限并追踪流转过程的变化情况。通过血缘分析、影响度分析进行数据流转关系的发掘和呈现,同时通过元数据变更情况管理,实现数据可追溯,并清晰掌握数据间的关系(见图2)。

图片

图2 平台元数据全生命周期管理示意图

平台通过统一的元数据管理,对多种底层数据存储组件设计权限模型,主要包括元数据权限、数仓数据权限、Hadoop数据权限。元数据权限控制用户访问平台元数据信息,数仓数据权限控制用户访问存储在数据仓库中的数据,Hadoop数据权限控制用户访问存储在Hadoop体系(如hive、HBase等)中的数据。平台以元数据管理为基础,结合用户类型、Ranger组件共同实现平台数据权限的安全控制,其统一权限管理见图3。在此基础上可以实现字段级细粒度的管控,并根据数据分级与敏感度进行数据加密与脱敏。

图片

图3 基于元数据的统一权限管理

1.2


基于元数据管理的数据共享流程

平台数据共享流程主要分为数据登记、数据汇聚、数据治理、数据发布、数据共享申请、数据共享审核等阶段,在基于元数据的统一权限管理下实现平台与业务系统间的数据接口共享和平台内数据共享2种方式(见图4)。

图片

图4 基于元数据的数据共享流程

数据登记是数据汇聚前的准备工作,业务部门需通过平台提交描述业务系统基本情况的数据资源,包括业务系统名称、数据内容、数据结构、数据量和数据分级等描述信息;数据汇聚是根据数据登记信息,如数据类型、数据增量等,确定数据汇聚方式,并在汇聚过程中进行实时监控与预警;数据进入平台后,基于平台的数据稽核规则与铁路主数据[6]开展数据治理工作;当数据达到一定的数据质量标准后,可以根据数据的安全分级情况以数据资源目录的形式进行数据发布,发布时字段可选;完成数据发布后,用户可在铁路数据开放门户(简称开放门户)中检索到相应的数据资源(见图5),同时可以查看对应的元数据信息与预览数据。

图片

图5 开放门户数据资源页面

图片

2 基于冷温热分层存储的数据共享体系

图片

在平台存储组件中,针对存储数据的不同特征、不同共享需求和存取模式,平台自动适配存储结构并控制数据权限,保障数据存取效率和安全。平台存储组件方案包括适用于离线分析的HDFS文件存储系统、适用于实时分析的大规模并行处理(Massively Parallel Processing,MPP)分布式数据仓库、适用于小文件存储的对象存储、适用于事务操作的关系型数据库及适用于数据高速存取的内存数据库等。平台数据分层存储体系见图6。

图片

图6 平台数据分层存储体系

图片

3 基于服务管理的接口自生成与服务聚合技术  

图片

平台的服务管理模块是数据共享的核心,平台提供的所有数据汇聚接口、数据共享接口都是通过服务管理模块实现的。在服务管理的基础上,为了减少接口开发的工作量,降低平台使用难度,研究并实现了基于通用底层接口的接口自生成技术;为了进一步降低接口开发量,提升平台基础接口的复用率和平台服务定制化水平,研究了敏捷化可复用的服务聚合技术,便捷化形成逻辑复杂的服务接口,提升平台易用性,并在平台数据共享模块的多个场景中进行验证,提供面向实际业务需求的数据共享服务。

3.1


服务管理

平台拥有多元异构数据的存储能力、大规模数据的分析能力和面向各业务领域的动态可视化能力,通过接口形式向业务系统提供服务,支撑数据与存储、分析与可视化等能力的开放。服务管理主要包括服务注册、服务发布、服务申请、服务审核、服务监控等模块(见图7)。

图片

图7 平台服务管理流程

服务注册模块提供服务接口注册管理功能,服务接口包括基于平台定制化开发的接口、基于平台接口自生成技术自动创建的接口、第三方服务接口3种类型,3种接口通过服务注册后,平台可对所有服务进行统一管理与监控。服务注册需要提供接口的统一资源定位器(Uniform Resource Locator,URL)、接口名称、参数、有效期等信息。与数据发布类似,平台管理员可以根据需求进行服务发布,服务发布后可以在开放门户的服务列表查看(见图8)。其他用户可根据需求进行服务申请,由平台管理员进行服务审核,审核通过平台会自动生成接口文档供申请者使用。

图片

图8 开放门户服务列表

3.2


接口自生成技术

随着平台接入数据越来越多,平台的共享需求与日俱增,以往任何一个数据共享需求都需要开发相应的数据共享接口,导致接口开发工作量巨大。为了解决这个问题,研究了接口自生成技术,并成功应用到平台共享模块,大大减少了接口开发量。接口自生成技术的构建基于平台统一存储与查询引擎之上,通过封装底层数据访问接口,按照一定规则创建满足共享需求的虚接口,并自动生成虚接口的接口文档,供业务系统方使用。虚接口并不是实际存在的接口,但对于业务系统来说,虚接口与定制化开发的接口一致,可以正常调用获取数据。虚接口的URL是按照一定的规则自动创建的,平台基于该规则自定义拦截器实现了对虚接口的访问拦截与控制,同时对访问进行监控。

3.3


服务聚合技术

服务聚合是指对现有的一组基础服务按照一定的业务逻辑进行集成,解析输入输出数据结构,构建服务执行流程,从而更好地满足用户需求。服务聚合整合多专业的数据与能力,将不同基础服务接口通过一定的逻辑计算自动组合并生成一个新的服务接口,无需进行额外的接口开发工作,能够极大地提升平台共享能力。平台服务聚合示例见图9。

图片

图9 服务聚合示例

图片

4 结束语

图片

为进一步提高平台的数据共享能力,结合平台开放共享需求,研究并实现了基于元数据的统一权限体系与数据共享流程、基于冷温热分层存储的数据共享技术、基于服务管理的接口自生成与服务聚合技术等关键技术。构建了覆盖数据全生命周期的平台统一元数据管理和数据存储体系,基于平台服务管理模块,突破实现了服务接口的自生成和服务聚合技术,实现平台既有基础服务的复用,降低了平台数据共享接口代码开发量。研究成果为后续基于平台建设的大数据应用提供了稳定高效的数据共享服务,可支撑基于平台建设的大数据应用快速实现及稳定运行,但平台共享服务在高并发场景下仍存在一定的性能问题,还需进一步研究负载均衡、缓存与异步技术。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多