分享

【案例】农业银行大数据平台项目——海量数据复杂运算处理

 数据猿 2021-02-23
数据猿导读
 

随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,满足内部数据分析和监管机构的监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 南大通用 的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融信息行业协会、互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾(点击阅读原文查看)】

在论坛现场,也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

来源:数据猿丨投递:南大通用

本文长度为4800字,建议阅读10分钟

中国农业银行原有数据分析平台基于SYBASE IQ建设,随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,同时也无法继续接入更多的源系统数据。为满足行内数据分析和监管数据不断增加的需求,农业银行在2013年开始建设完全自主可控的大数据平台。

南大通用GBase 8a MPP Cluster集群在众多备选产品中脱颖而出,被选作大数据平台核心组件企业数据仓库及集市的数据管理基础软件。到2016年底,农行大数据平台已经建成为数据源完整、业务支撑覆盖面广的银行重要IT基础。

平台建设期间,农行与南大通用共同对MPP数据库进行深入研究、适配,总计完成数百项包括底层架构、高可靠性、高可用性、性能等方面的优化与改进。南大通用GBase 8a MPP Cluster产品也发展成为国内企业大数据、数据仓库领域基础平台软件的领先产品。

周期/节奏

2012年10月至2013年7月,项目组与多家厂商进行了技术交流,并组织了对Oracle、IBM、EMC、GBase8a等主流数据库,IDH、CDH、ZDH、FusionInsight、Inceptor等Hadoop发行版的调研与选型测试,通过MPP数据库、Hadoop的研究、学习,初步得到结论,可以将Hadoop与MPP数据库相结合运用。

2013年8月,农行数据仓库正式立项,确定采用南大通用GBase 8a MPP Cluster与Hadoop的混搭架构。

2013年11月30日,数据仓库原型集群及资负、零售数据集市试运行(28节点MPP集群)。

2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。

2014年12月,完成财会集市(16节点MPP集群)搭建。

2015年4月5日,数据仓库及资负、零售数据集市投产上线。

2015年底至2016年3月,完成ODS迁移至Hadoop、集市外迁及双活环境搭建等一系列架构优化升级,升级后GBase MPP数据库集群共计250个节点,容量5.2PB;Hadoop集群共计150个节点,容量4.3PB。

2016年11月至今,完成五大集市即对公客户、个人客户、风险、运营风控等数据集市的投产上线,同时建设集数据处理、模型算法、结果展示于一体的数据挖掘平台。

目前平台规模为:GBase MPP数据库集群共计622个节点,容量约15PB,Hadoop集群共计263个节点,容量5.6PB;其他数据加载服务器、调度服务器等合计37节点。

客户名称/所属分类

中国农业银行/大数据技术服务

任务/目标

围绕农行发展战略,围绕数据管理和数据服务两个基点,按照全行大数据平台统一框架,遵循“统筹规划、顶层设计、共享复用、分步实施”的设计思路,构建全行企业级大数据平台,实现数据资源统一管理。

同时,全面提升数据服务能力,充分挖掘数据价值,满足全行客户营销、风险管控、经营管理及外部监管需要,推动数据治理,全面提升全行数据资源管理水平和数据资产综合应用能力,促进业务“用数据说话”,为业务发展提供不竭的内生动力,持续推动全行业务创新、营销创新、服务创新、管理创新。

实现行内业务数据统一管理,可以采用与第三方合作等方式获取行外数据,实现数据资源的全生命周期管理;向行内各层级各业务条线,提供全方位的数据产品。

建立健全数据服务管理体系;统筹规划,建设个人客户、对公客户、运营风控、风险管理、绩效管理、审计内控、监管统计、分行集市等八大领域数据集市;业务支撑涵盖客户营销、风险管控、运营分析、外部监管、资产负债、绩效管理等各个领域;基于行内外数据开展各领域和热点业务分析,深度挖掘数据价值。

挑战

农行大数据平台建设中面临以下难点:

1、如何实现MPP数据库与Hadoop平台完美混搭

MPP数据库适合高密度结构化运算,而Hadoop平台的优势在于非结构化数据处理及其扩展能力。因此要评估哪些场景适用MPP数据库,哪些场景适用Hadoop平台,如何实现MPP与Hadoop的数据交互,同时能够做到2种架构功能互补。

2、系统开发从传统数据库转至MPP及Hadoop平台,如何能够运用新的基础架构特性,并快速完成已有数据模型迁移,新数据模型开发。

3、大规模的集群环境,如何统一规划、部署、管理、监控。

大数据平台涉及数十套集群、近千台服务器,对机房环境、网络环境高,需要提前做好规划设计;同时如此量级的服务器,操作系统、数据库等安装部署、升级、管理需要有统一的管理流程及操作方式;对于多集群的监控、预警、健康检查也需要有有效的流程与系统支撑。

4、如何满足上层应用、联机服务的多样性的数据需求及响应时间

大数据平台上层支撑监管、审计、零售等不同业务领域的应用,各应用的数据交互方式差异化明显,对时效性的要求也各不相同,需要设计统一的接口方式并支持配置化管理。

5、如何保证平台高可靠性,高可用性,容灾机制

大数据平台支撑上层多个领域业务,在整个IT系统中地位非常重要,平台发生故障会对业务产生不可估量的影响,因此要从数据库、应用等多个层面保障平台的稳定性及高可用性;同时要对PB级数据备份这一难题深入研究,通过搭建双活集群、数据备份至Hadoop集群等多重灾备机制保障数据安全。

解决方案

平台采用南大通用GBase 8a MPP Cluster+Hadoop混搭架构建设,其中GBase集群总计622个数据节点,其中主仓共112个节点,采取双集群组成双活主库,其余为8套集市环境及5套外围应用;Hadoop集群总计263节点,其中ODS Hadoop集群172节点,其余为流计算平台Spark数据分析挖掘平台。

总体架构图

GBase 8a MPP集群承担大数据平台核心组件:企业数据仓库(EDW)、数据集市(DW)及数据挖掘、数据提取、监管报送等应用;

Hadoop集群承担数据操作区(ODS)处理、历史数据备份及流计算以及部分分析挖掘工作。

大数据平台还包括:统一调度、统一监控、统一ETL开发工具、统一元数据管理、统一数据质量管理等系统以及统一展示平台。

关键技术1:混搭架构

运用Hadoop集群非结构化数据处理优势,将数据清洗、转换、字符编码自动识别转换、去重等ODS任务分解为分布式、并行执行的M­R作业,同时将全量数据加工为增量数据,降低数据处理量级,显著提升ETL性能。

主库作业通过GBase 8a MPP加载工具直接从Hadoop读取并加载LZO文件,数据入库效率提升显著,同时降低了大量网络开销;主库MPP集群在增量数据入库后,完成基础模型加工、指标汇总等高价值、大数据量复杂运算;集市MPP集群主要负责各领域宽表加工、多维分析(CUBE)及部分报表加工。

目前大数据平台日终加工时间为8­10小时,月终加工时间为12­14小时,日终处理数据文件1.5TB,月终处理4TB。其中MPP数据库内复杂作业1万多个,涉及SQL语句10万多个,库内总计约6万多张表,存储总数据量接近15PB裸数据,最大表约2万亿行。

关键技术2:MPP集群双活

双活架构示意图

通过运用GBase 8a MPP集群间同步工具识别主集群增量数据(以DC为单位),点对点传输至备集群,实现主备集群数据一致;同时结合大数据平台批量加工调度平台、监控平台,制定双活方案。

实现:1)、每日增量数据备份;2)、主集群负责批量加工、备集群负责联机查询的负载分担模式(Active­Query for Asymmetric Workload);3)、主集群发生异常时,批量加工可在较短时间内切换至备集群。

集群双活机制解决了大数据场景中PB级数据备份的难题,也提升了大数据平台业务高可用性、稳定性,保障了批量加工业务的连续性,同时提升了平台整体服务能力。

关键技术3:MPP集群间数据交互

主库完成基础模型、指标汇总后,各集市按照业务领域从主库获取全量或增量接口数据,单日接口数据达上百TB,如采用传统文件交换的方式,不仅效率远无法满足集市支撑的上层应用需求,也会造成系统运行不均衡、性能缓慢等异常。

GBase8a MPP数据库提供的透明网关机制(DBLink)有效解决这一难题,通过该机制,8个集市每日获取主库接口数据的时间缩短至总计约1小时,同时保障数据传输的高可用性。

Dblink传输示意图

目前大数据平台已经接入超过90个业务系统源数据,向资产负债决策支持、定价管理、资金及FTP管理、信用卡客户价值、信用卡数据平台、支付信息统计分析、电子银行报表、客户关系分析、客户统一视图、信息共享平台、数据信息报告系统等20个应用提供数据服务。

方案价值

这是中国金融行业最大的数据仓库和大数据平台,也是第一次国产化数据库进入4大行的核心业务系统。作为农行大数据平台核心架构的GBase 8a MPP Cluster,其海量数据处理能力为用户提供了性价比很高的海量并行复杂数据处理平台,帮助客户形成PB级以上的业务数据统一视图,为客户提供及时高效的数据分析结果。

其高性能、系统架构高可扩展特性,保证平台接入更全面的业务数据,满足市场营销、内部管理、内外监管的分析需求;其高压缩比特性,为用户提供完备压缩态存储管理海量数据的能力,进一步降低客户数据仓库建设的成本;其高可靠性、高可用性包括世界首例PB级数据量下的双活集群,保障了农行大数据平台连续稳定运行超过600天。

在不断的市场实践和用户反馈中,GBase 8a体现出8大价值,可分为两级:

一级价值

这是中国金融行业最大的数据仓库和大数据平台,也是第一次国产化数据库进入4大行的核心业务系统

二级价值

提速:查询分析类性能提升10­­—100倍

省盘:存储空间节省50%­­—90%

省钱:软硬件投资节省50%­­—90%,节电30%­—50%

成云:支持云计算架构,横向扩展能力

全文:集成全文检索,管理半结构化数据(云文件)

转非:非结构化数据的结构化提取和转化

全数据:统一处理结构化、半结构化和非结构化数据

可视化:GBase BI,可视化的分析平台

GBase 8a已经在电信、金融和政务等领域取得规模化市场应用,主要包括中国移动、中国联通、中国电信、银监会、公安部、安全部、工信部、国税总局、国家海洋局、中国石油等。

企业介绍:

天津南大通用数据技术股份有限公司是国产数据库的领军企业。2013­­2016连续四年在赛迪顾问发布的《中国平台软件市场研究年度报告》中位列国产数据库市场占有率第一,并在IDC年度研究报告中被评为“国产数据库第一品牌”。

南大通用以“让中国用上世界级国产数据库”为使命,打造了GBase 8a/8t/8m/8s/8d/UP等多款国内领先、国际同步的自主可控数据库、大数据产品,并在金融、电信、政务、国防、企事业等领域拥有上万家用户。

产品国内领先、国际同步

GBase 8a是结构化大数据分析领域的产品,与国外同类主流产品保持技术同步,市场同级。以大规模并行处理、列存储,高压缩和智能索引技术为基础,具有满足各个数据密集型行业日益增大的数据分析、数据挖掘、数据备份和即席查询等需求的能力。

GBase 8t是基于IBM informix源代码、编译和测试体系自主研发的交易型数据库产品,通过中国信息安全认证中心的安全可靠认证并在高可用、灾备、空间数据、时序数据等方面技高一筹。

GBase 8m产品是面向高频交易的事务型数据库,采用多核、多进程、大内存、SSD等最新硬件技术,比同类内存数据库的性能有了大幅度的提升。

案例丰富、为核心系统国产化提供可靠选择

GBASE是唯一规模化进入高端行业核心系统的国产数据库。

GBase 8a支撑了农行核心数据仓库、中行大数据平台、招行审计风控,以及移动、联通、电信20多个省的大数据平台、经营分析等关键业务系统。已经在银行、保险、证券、电信、电力、公安、安全、机要、税务、社保、财政、卫计、食药监、统计、海洋、军队、军工等十七个行业规模化应用。

GBase 8t已经在华夏银行、北京农商、雅砻江水电、贵州移动等17个关键领域的核心业务系统中上线,在银行、保险、电信、政府、军工、电力等106个行业用户完成测试,确认能够替代Oracle。

资质全面、为数据安全提供坚实基础

GBase 8s通过公安部等保四级、国家保密局认证,还是唯一符合信息安全政采要求,具备3C证书的数据库产品。加上密码局颁发的商用密码型号证书,已囊括信息安全产品类所有资质,是中国安全等级最高、资质最全的数据库。

聚集人才、蓄势待发

2015年7月31日,南大通用成功登陆全国中小企业股份转让系统(新三板)(证券代码:833056),成为国产数据库第一股。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多