分享

谈谈数据中台建设启示

 数据治理精英馆 2021-12-24

    前言

    阿里巴巴的数据中台侧重对“烟囱式”应用数据的标准化和聚合,构建公共数据模型,发掘对内赋能运营和商家的数据价值。华为的数据中台侧重生态合作,主打数据底座,再集成生态伙伴的数据治理、数据分析、数据资产管理等工具。国网数据中台包括数据模型、算法服务、数据产品、数据管理等,和企业的业务有较强的关联性,是企业独有的且能复用的。

    1 数据中台解决方案现状

    1.1阿里巴巴数据中台

    阿里巴巴的淘宝和天猫的业务最初由同一个技术团队开发维护,经常会出现资源协调不平衡的问题,阻碍业务发展。天猫和淘宝电商系统是完全独立的体系,但又同时包含了商品、交易、评价、支付、物流等相同功能,导致系统出现冗余情况、重复性开发等问题。因此,阿里巴巴启动“中台战略”,构建符合DT时代的“大中台、小前台”组织机制和业务机制:将两套电商的业务进行梳理,把公共的、通用的业务功能沉淀到共享事业部,避免功能的重复建设和维护,更合理地利用技术资源;把两套电商的业务中商品、交易、评价、支付、物流等同类型的可共享的数据沉淀到数据中台,用融合后的数据对前台统一提供数据服务。这样的机制对支持前台的一线业务会更敏捷、更快速适应瞬息万变的市场。阿里巴巴数据中台的业务架构如下图所示。

    阿里巴巴数据中台包括计算与存储平台、数据资产管理、智能数据研发、统一数据服务中间件四大模块。数据服务中间件又分为萃取数据中心、公共数据中心和垂直数据中心三层,垂直数据中心负责从阿里巴巴旗下各个业务单元采集数据;公共数据中心类似数据仓库,将所有数据按不同主题域(电商、文娱、营销、物流、金融等)分类管理。这两层实现了对全域数据的整合和集中化管理。萃取数据中心负责按照业务需求,将各主题域数据加工处理,建立起消费者、企业、内容、商品、位置五大数据体系,深度萃取数据价值。数据服务中间件涉及到的数据研发按照规范化的数据架构(数据仓库规划、数据模型构建、指标定义规范等),实现数据口径、数据模型标准化。另外集成数据资产管理能力,从数据的运营、应用、管理、分析、可视化五方面统一管理数据资产。通过这样的架构设计,阿里巴巴实现了对下屏蔽各数据来源不同的现状,对上提供统一的数据服务接口和标准化数据。新的业务需求再出现时,开发人员不用再从头做起,直接基于数据中台提供的能力,就可以快速完成新应用开发。

    1.2华为数据中台

    华为提出的“大平台炮火支撑精兵作战”的企业战略,这正是中台的理念。华为的数据中台方案侧重于基于数据湖的数据底座建设,其数据中台设计理念如下图所示。

    在数据底座层,FusionInsight(FI)HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。GaussDB200是企业级的大规模并行处理关系型数据库,采用大规模并行处理(MPP)架构,支持 PB级别数据量的处理能力。AI平台通过FusionMind增强自动化机器学习、半自动化数据标注,大幅提升AI开发效率。同时还集成了第三方平台,包括数据安全、数据容灾、时序数据库等。数据底座之上,通过数据治理、数据集成、数据开发三平台来打造全域数据模型。

    数据治理平台提供基于内置规则模板的数据质量分析、监控、稽核工具,又构造数据地图提供基本的业务元数据管理、数据目录搜索功能。数据集成平台集成Flink流计算,支持MySQL、Oracle、实时采集等多种数据源。数据开发平台支持对作业及资源进行权限控制,对接数据管理服务,提高开发效率。全域数据模型提供了从贴源层到集市层多层次的加工数据,适合数据分析师按需选用。数据中台对外提供的自助分析、高级分析、数据API。

    2 国网数据中台

    国家电网有限公司在基础设施、人员团队、营销运检等业务流程,沉淀了丰富的数据资源。基础设备接入智能电表终端5.4亿台,车联网接入充电桩超过28万个,企业员工超过186万人,供电人口超过11亿人,电商平台注册用户2.25亿人,建成地市供电服务指挥中心336家。然而,各部门依据自身业务建立信息系统,系统间数据未有效贯通、共享公用。数据在业务支撑、效率效益和工作质量等方面价值发挥不充分。

    国网需要把没有采集的信息采集起来,没有共享的数据即时共享出来,没有用好的数据价值挖掘出来,让数据价值达到最大化。国家电网也急需打破管道化状态,整合各部门的数据资产以及社会资源,对外开放共享合作,衍生新兴产业,发挥产业链价值。数据中台是调解前台和后台矛盾的中间层,通过后台数据的建模、数据服务的聚合提供一个可复用、标准化、敏捷式的数据平台,支撑前台应对市场快速变化的需求。数据中台包括数据模型、算法服务、数据产品、数据管理等,和企业的业务有较强的关联性,是企业独有的且能复用的。中台的建设目标是降低重复建设,减少烟囱式协作的成本,也是企业差异化竞争、数字化转型的优势所在。

    2.1“六维度”建设理念

    1)壁垒:对内打破部门间的壁垒,对外打破行业壁垒,通过数据交叉融合实现合作共赢。

    2)标准:制定数据标准,统一数据口径,便于数据质量治理、数据分析、价值挖掘。

    3)资产化:对数据进行收集、治理、建模等操作,让数据成为可用、易用、通用的数据资产。

    4)贴近业务:通过业务专题划分,让数据更贴近业务,为上层提供精准、全面的数据服务。

    5)智能:通过数据的自动挖掘和人工自定义挖掘、常用AI算法模块,提供智能化数据服务。

    6)敏捷:提供易操作的自助式分析工具、建模工具、服务发布工具,快速满足前台需求。

    2.2“五能力”重点建设

    1)数据接入:需具备数据抽取、转换、复制、迁移、同步等能力,把异构数据源接入到数据中台。

    2)数据治理:基于数据标准制定,提供元数据管理、主数据管理、数据质量管理等能力。

    3)存储计算:需提供针对不同数据源和不同数据应用分析需求的多种存储方式,同时具备实时计算、离线批处理计算能力。

    4)数据建模:需提供数据建模工具集,方便建立基础数据模型、聚合数据模型、通用分析模型,兼具BI建模、AI建模、模型评估、模型部署能力。

    5)数据服务:需具备数据服务开发与发布、服务目录管理、服务路由、访问日志与服务监控能力。

    2.3架构设计

    数据中台架构分为5个层次,如下图所示.

    自底向上依次为:

    1)数据接入层:支撑将各类异构数据从数据源层抽取、转换、同步到上层。主要方式为:ETL、实时采集、数据复制、流数据接入、FTP、日志采集等;

    2)数据治理层:通过元数据管理、数据字典与主数据管理、数据质量管理等一系列方式实现企业数据管控,清晰地了解数据分布情况,最大限度地提高数据可靠性,为上层提供坚实的“数据底座”;

    3)数据模型层:首先将全域数据的基础表按主题归类,形成全业务基础模型,如人员类、财务类、客户类、电网类等。为便于快速分析应用,又按主题及主数据与多维度数据的关联关系,聚合成一系列宽表模型,如人员宽表、财务宽表、客户宽表、电网宽表等。上述模型构成了数据资产,利用数据资产目录管理工具进行管控;

    4)通用分析模型层:是贴近业务场景而抽象出来的具有通用性的高级模型,例如信用评级模型,可同时为优质客户的增值业务场景(对内)、金融机构贷款授信场景(对外)等提供数据服务。其他通用分析模型还有预测模型、故障诊断模型、欺诈预警模型等;

    5)数据服务层:提供数据服务化工具和高可用服务响应能力,并对服务性能进行监控,另外,数据访问日志记录了服务、数据的调用频度,借此衡量数据热度。上层应用通过数据服务层既能访问数据模型层的数据,又能访问通用分析模型层的高级模型,达到快速构建数据应用和探索挖掘的目的。

    3 方案特色

    在数据中台“五能力”中,数据接入、数据治理、存储计算基于Hadoop开源组件。数据建模、数据服务两大核心能力是方案的亮点。

    3.1数据建模平台

    可视化数据挖掘建模平台通过数据挖掘应用工具化的模式,将常用的数据挖掘算法、AI算法抽象封装为模块,使数据应用开发的速度更快、成本更低。设计遵循跨行业数据挖掘标准流程方法论,把数据挖掘看作一个业务过程,并将其具体的业务目标映射为数据挖掘目标,这个流程确定了一个数据挖掘建模项目的生命周期:①业务理解,了解进行数据挖掘的业务流程和数据挖掘目标;②数据理解,深入了解可用于挖掘的数据;③数据准备,对待挖掘数据进行合并、汇总、排序、样本选取等操作;④建立模型,根据前期准备的数据选取合适的模型;⑤模型评估,使用在业务理解阶段设立的业务成功标准对模型进行评估;⑥结果部署,使用挖掘后的结果提升业务的过程。

    3.2基于SpringCloud的数据服务平台

    基于SpringCloud框架,为数据中台的最终对外赋能提供了数据服务“窗口”,核心功能包括服务发布、服务目录管理、服务路由,另外增加了服务开发和服务监控组件使平台功能更加完整。平台架构如下图所示。

    1)数据服务开发。该组件帮助用户对建模平台部署的模型进行服务化封装,包括数据模型、业务模型、作业流程的服务化和dataAPI接口定义。

    2)数据服务发布。这是数据服务平台的核心部分,通过对Eureka的二次封装实现服务发布。Eureka提供了服务端和客户端,服务端是服务注册中心,客户端完成服务的注册和发现。平台提供4种类型的数据服务发布,有结果集、源数据、消息和文件服务。

    3)数据服务目录。该组件基于Eureka进行服务目录治理、服务自维护,服务提供方主动向服务治理中心注册,服务的消费者通过服务治理中心查询需要的服务并调用,或者订阅服务。服务的消费者必须经过数据访问权申请和审批才可访问服务。另外,对接口服务和批量服务需采用不同的管理目录和方式,批量服务的权限管理更复杂严格。

    4)数据服务路由。该层负责数据服务的负载均衡和过载保护,保证服务的高并发性和高可用性,综合利用Nginx反向代理机制、Eureka自身的负载均衡、Kafka队列、Redis缓存机制来支撑。

    5)访问日志与数据服务监控。作为辅助工具,完成使用频度、数据流向、批量任务指标、接口指标、服务器运维指标、服务的健康检查等工作。

    4 数据中台的应用

    国网数据中台的最终目的是对企业内部增强精益化管理、提高数据分析效率和预测能力,对企业外部提供创新型数据产品、拓宽企业盈利增长点。下面以“企业客户电力大数据征信”为例,讲述如何利用数据中台构建创新型数据产品,开放外部变现数据服务。

    场景说明:以电费、电量数据为核心,分析企业电费电量变化趋势,推测其全年产能和经营稳定性,构建包含欠费、缴费、用电行为等关键指标的客户信用模型,进行信用评分评级,生成电力信用报告,为银行业金融机构提供电力大数据征信产品,以数据服务接口形式对外有偿发布。实施步骤如下。

    1)指标体系的建立。围绕企业贷款的两大考察因素——还款能力和还款意愿,构建5个一级指标类:经营能力、行为法律信用(如违章用电、窃电、违约金拖欠)、经济法律信用(如欠费)、安全评价、合作信用,以及22个二级指标,构成信用评价指标体系。

    2)根据数据资产目录定位指标所需数据。即追溯要计算的每个指标所需的数据源端、贴源层、共享层,数据是否具备、如何预处理,建立各项指标的数据血缘。

    3)利用数据建模平台辅助推荐合理的指标权重。采用层次分析法(AHP)对指标体系的22个二级指标进行重要性评估,最后进行权重归一化。

    4)制定每个指标的评分规则。利用建模平台,通过调用缺失值处理、异常值检测、分箱技术组件,把每个指标的全量数据按数据密度进行分箱。再根据分箱结果即数据密度分布情况,给出较为合理的指标评分规则,设定的指标评分规则见上表。

    5)开发信用评级模型算法。利用建模平台,完成所有指标和评分规则的开发和测试。

    6)电力数据征信服务的发布。利用数据服务平台将信用评级模型发布为数据服务,提供3种服务接口:①仅查询电力征信总得分;②简版征信报告:获得完整的评价报告(分指标得分);③详版征信报告:获得每项指标的实际数据,金融机构自行解读。用户基于电网企业数据中台,还可以进行很多有价值的场景分析挖掘,借助数据中台能够形成电网全业务分析、建模、应用的“众创”局面。

    5数据中台价值

    数据中台的价值体现在“准、快、省”三个方面:

    1)准:通过制定全业务数据标准模型,解决了数据互通的诉求,统一数据归集和出口;建立元数据、数据地图、血缘,做到数据可管理、可溯源、可核对;解决了决策支持时数据片面、不准确的问题。

    2)快:数据的统一归集最大程度地避免了重复数据抽取;数据建模分析技术组件的透明封装,大大提高了数据处理和分析效率;通过共性数据模型和数据服务的封装、预建各种主题、维度、明细汇总、指标等技术手段,大大缩短了海量数据的处理时间。

    3)省:节省开发时间就是节省成本,数据的统一归集和出口,最大限度地避免了各部门在数据存储计算资源上的滥用,降低了硬件成本。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多