分享

【案例】某城商行——数据平台建设项目

 数据猿 2021-02-23
数据猿导读
 

随着城商行业务的发展,银行内部业务系统的处理日益加重,处理逻辑日益复杂。若以传统方式直接从数据来源系统供给分析类业务系统,而又不影响各个业务系统的处理效率已经不现实

本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 东方金信 的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融行业信息协会、互联网普惠金融研究院联合主办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾(点击阅读原文查看)】

在论坛现场,也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

来源:数据猿丨投递:东方金信

本文长度为4800字,建议阅读10分钟

随着城商行业务的发展,银行内部业务系统的处理日益加重,处理逻辑日益复杂。若以传统方式直接从数据来源系统供给分析类业务系统,而又不影响各个业务系统的处理效率已经不现实。此外,直接向分析类业务系统提供来源系统数据,则使他们之间耦合度过高,不利于系统的维护和工作开展。

我们通过数据平台建设,应用咨询、规划、部署对数据规范化定义,实现数据的唯一性,准确性,完整性,规范性和实效性。实现数据的共享共用,解决数据层面的孤岛问题。整合银行各个业务系统,形成数据中性。不同的业务分布在网络的不同位置,没有形成逻辑和物理的数据集中,给数据共享、数据管理和数据应用带来很多不便。

因此需要整合各个业务系统,建立数据中心,物理和逻辑的将数据集中起来,同时数据中心起到了物理隔离生产系统,减轻对生产系统压力,提升效率。

周期/节奏

2016年7月至11月,我公司根据银行用户需求,完成了银行数据仓库的数据模型建设工作,其中包含了银行的存款、贷款、银行卡、财务、客户等业务,满足了行内大部分业务系统的应用需求,目前已在生产系统正式运行。

期间,解决了ETL调度系统跑批时间较慢的问题,按照分批定时的方式,将作业分批执行,合理安排跑批时间,使问题得以解决。

2016年7月至10月,完成了管理驾驶舱系统建设工作,其中包含了40个指标的开发,及管理驾驶舱系统前端界面的开发工作。

以核心系统,信贷系统等主要来源系统为主要数据来源,实现如何将管理经验信息化,如何应对监管要求,如何体现管理中股东的利益,如何识别、规避和管理的各类风险、如何实现以客户为中心的体系、如何建立银行全面绩效系统等基本目标,建设使领导能够及时了解资产变化情况、及时掌握银行风险状况,为决策者提供数据方面的参考依据。

2016年7月至11月,根据行内报表需求,完成了106张新报表的程序开发与前台界面设计工作。支持在规定的批处理时间窗口(Batch Window)内能够完成数据加载工作,满足日常数据加载的性能需求;实时调度,包括结合审批流程发起实时调度,结合ODS满足部分准实时调度需求;能够支持有效的应用程序开发模式,提高开发效率,尽量减少应用开发成本;减少系统维护的复杂性,支持后续增加新数据或功能的开发工作;和上下游系统接口的松耦合设计,避免上下游系统的变更导致ETL程序本身频繁变更;利于扩展,当ODS需要进行扩展时,ETL平台能够很好的支持。

客户名称/所属分类

某城商行/数据平台

任务/目标

重点完成银行数据平台建设,包括数据仓库、报表平台、管理驾驶舱等模块。

1、数据仓库需求

数据仓库建设的目的是为业务应用系统提供基础分析数据;

(1)标准化和规范化,对各源系统代码进行标准化处理,对数据格式进行规范化处理;

(2)数据的必要整合,对源系统进行整合、拆分,以达到应用方便、高效为目的;

(3)机构的统一,将各源系统机构编码进行统一,平台提供统一基线机构,在整合中进行转换;

(4)实体设计基本要求,所有实体增加字段:源系统数据时间、源系统标识、数据加载时间。

2、管理驾驶舱建设需求

结合核心系统,信贷系统,总账,财务系统等业务系统的数据,如何把管理经验信息化,如何应对监管要求,如何体现管理中的股东利益,如何识别、规避和管理各类风险,如何为客户提供恰当的服务,如何将产品定价,以及如何建立银行全面绩效体系,如何辅助管理部门和领导进行决策,如何为各业务部门提供精确业务信息。

根据以上这些目标,建设管理驾驶舱系统,使管理者能够通过管理驾驶舱系统,及时了解资产增减变化情况,掌握全行风险状况,为决策提供数据方面的依据。

除了保证数据的准确性,重点关注系统的界面风格,让领导能够清晰的看到每一个指标的数据展现情况。同时为后续系统的扩展预留通道,后续可以集成短信,邮件等

3、报表平台建设需求

(1)保证报表平台数据的准确性;

(2)支持在规定的批处理时间窗口内能够完成数据加载工作,满足日常数据加载的性能需求;

(3)业务人员能够及时准确的查询报表;

(4)当有新数据需求时,科技人员能够高效、准确的开发新报表;

(5)减少系统维护的复杂性,支持后续增加新数据或功能的开发工作;

(6)和上下游系统接口的松耦合设计,避免上下游系统的变更导致ETL程序本身频繁变更。

挑战

1、公司与用户之间的信任度不高,并且用户在技术方面有一定的局限性,通过我们的实施策略,达到一做一汇报的原则,并定期对用户进行培训,是用户更加的了解与信任公司,最终此问题得以解决。

2、ETL调度跑批时间较慢的问题,不能达到用户在上班时查到有效数据,在一定程度上影响了业务人员的需求, 公司方面采用将调度作业分批定时的方式进行跑批,并增加了运行内存,最终,跑批时间控制在用户上班前半小时完成。

3.执行程序时,部分主要的大表,运行时间较长,采用分区表的方式,以及调整加载策略的方式,最大程度的调整大表执行时间,使整体运行时间缩短到理想状态。

实施过程/解决方案

数据平台主要由贴源区、整合区、集市区、应用区、四部分组成,并制定相应数据标准、应用规范及数据安全管理体系,总体框架图如下:

(一)数据源层

数据源层是基础数据来源,包括银行的核心数据、信贷数据、财务数据、网银数据以及其它数据。

(二)数据处理层

在源数据加载到模型库之前,对数据融合清洗,进行全面的质量稽查、标准化、数据归集关联清洗、质量监测、数据比对,进行数据质量提升几个功能模块。

(三)数据服务层

数据服务层通过对多源数据服务化,形成各类服务引擎,查询引擎、报表引擎、分析引擎,给综合统计分析系统提供安全的数据服务。

(四)数据应用层

应用层通过开放服务接口的方式向各应用系统提供安全的数据共享服务。

(五)标准体系、安全体系及运维支撑体系

标准体系、安全体系及运维支撑体系为我行数据平台的建设提供标准支撑、安全支撑及后续的运维支撑,以保证整个项目的顺利开展。

 总体架构图:


结果/效果总结

阶段效果

(一)数据仓库

1、入仓

(1)入仓表统计

目前银行业务系统有35个系统(1548张表)入仓,村镇银行有8个系统(728张表)入仓;

(2)存储策略

全量:在线只保存一天的数据、历史数据文件存储

增量:在线永久存储数据

2、基础模型

(1)主题分类

数据仓库基础层模型建设主要分为六个主题,共68张表:

参数主题:8张表

协议主题:38张表

产品主题:4张表

财务主题:2张表

事件主题:14张表

机构主题:1张表

以上六个主题包括我行存款、贷款、卡、总账相关业务,覆盖了大部分业务范围;

(2)存储策略

全量表:数据仓库中存储每月底加当前的数据

增量表:存储当前的最新数据

账户类:采用历史拉链的方式存储

3、汇总层

为了让基础层模型得到有效的利用,在模型的基础上建设了汇总层,主要是一些重要数据的汇总加工,满足了管理驾驶舱系统的使用,同时也满足后续的报表系统,其他有需求的下游应用系统使用。

汇总层目前完成了5张汇总表的建设,并保证了数据的准确性:

存款主题汇总表:17个指标

贷款主题汇总表:13个指标

盈利主题汇总表:3个指标

存款主题积数表:该表统计了存款账户表中重要的指标字段,并将余额的月积数、季积数、年积数及余额的月日均、季日均、年日均等数据做了汇总统计

贷款主题积数表:同理于存款主题积数表

汇总层的维度:按照时间、机构、币种统计;

频率:每日数据

存储策略:每日切片式存储

4、出仓

出仓数据以数据文件的形式发送至对方服务器。

本行出仓系统:11个系统(435张表)出仓;

村镇银行出仓系统:3个系统(89张表)出仓;

5、ETL调度

为了能够高效的处理数据以及及时了解数据的运行情况,我们自主研发了ODS平台调度系统,通过该系统,可以通过将数据进行调度,并且监控数据的运行情况及数据的准确性;

每一个出现错误的作业,可以查看调取该作业的脚本,通过日志查看报错的原因,以便及时解决问题;

除此之外,ODS调度系统还可以监控整个平台的运行情况,包括服务器的运行情况监控,作业的运行时长,错误作业的统计等功能;

根据不同的需求,可以自定义批量作业的运行时间,防止因多个作业同时运行引起的通道堵塞问题。

6、短信模块

为了随时了解数据的运行情况,开发小组进行了短信通知模块的开发,将各系统的入仓时间、结束时间,报错信息,以及批量运行完成后各空间的剩余情况以短信的形式进行告知。

7、数据质量检查

每月定时检查数据仓库中的数据标准情况,目前每月初手工统计截止到上月末的数据质量情况;分别检查各业务系统中每张入仓表的标准情况,包括入仓表比例,表注释,字段注释等情况的检查;

(二)管理驾驶舱

1、管理驾驶舱实施成果

管理驾驶舱系统目前有5个主题,合计38个指标,覆盖了银行存款,贷款,不良贷款,盈利等重点关注的大部分指标,详细如下:

存款主题:17个指标

贷款主题:13个指标

盈利主题:3个指标

流动性主题:3个指标

资本充足率主题:2个指标

(三)报表平台

建设全行统一的报表平台,确保了数据的准确性,支持全行业务人员开展统计分析工作,并为本行的经营决策提供数据支持;

报表平台目前总计206张报表,其中101张报表满足上线条件,现已确认口径,完成了报表开发及数据核对工作

根据统计,现有8个部门正在使用报表平台,其中计划财务部(使用66张)、内审稽核部(使用41张)使用报表数及使用频率较多

整体评估

(一)建立了一套适用于银行大数据应用和发展的标准规范体系,为将来大数据实践的不断完善和扩展打下良好的基础。

(二)统一了大数据采集平台,重塑数据来源通道,一次采集全部公用,减少工作人员重复采集的人力支出,规范了数据入口和出口。

(三)通过标准规范指导下的数据清洗融合,将高质量的多源异构数据进行统一存储和管理,为进一步更加精准的数据分析、挖掘预测创作了条件。

(四)大数据基础支撑平台是共用的基础技术平台,为后续应用发展提供了技术支撑,降低了数据协调费用,大大降低系统建设成本。

(五)通过标准规范建设、数据治理和大数据技术的支撑,构建数据库,为银行的风险控制、成本控制、精准营销等提供了有力支撑。

企业介绍:

北京东方金信科技有限公司(后简称东方金信)成立于2013年2月,是一家专注于大数据平台和大数据解决方案的国内领先企业,拥有ISO9001和CMMI3认证,是首批通过工信部数据中心联盟大数据基础能力和性能双认证的企业,参与和编写中国大数据标准和安全纲要、区域大数据评价标准和大数据十三五规划等顶层设计纲要。是中国数据中心联盟理事单位,中国大数据产业生态联盟理事单位,清华大学大数据产业联合会理事单位,中国支付清算协会金融科技专业委员会成员单位,中国大数据50强企业,IBM中国区大数据战略合作伙伴,Oracle金牌合作伙伴,Gartner国际主流Hadoop发行版厂商,中关村高新技术企业,国家高新技术企业。

东方金信的核心产品基于Hadoop分布式架构的大数据平台,专注于实现企业级高性能分布式大数据解决方案。公司核心产品海盒大数据产品套件包括了海盒大数据平台、海盒分布式关系型数据库、海盒人工智能分析平台、海盒分布式内存系统、海盒大数据BI系统、海盒大数据开发平台和海盒数据实时同步工具,涵盖了大数据产业链的数据采集、数据存储、数据管理、数据计算、数据分析挖掘、数据应用与数据展示的全部环节,提供高性能的海量数据处理能力,并且具有高可靠的安全管理系统和丰富的图形化交互界面,可以为企业级客户提供高效的一站式分布式大数据解决方案。

目前,东方金信公司已在政府、金融、工业、健康、电信等多个行业领域实现大数据战略布局,服务过的客户项目多数成为大数据典型案例和行业标杆。

数据猿超声波

2017金融科技商业价值探索高峰论坛

(点击图片,了解详情)

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多