分享

涂晓军:构建稳定高效银行核心系统架构,全面提升安全生产运行水平

 wzw69 2016-02-23



中国农业银行数据中心总经理   涂晓军


文  |  涂晓军


当前,在我国经济金融发展新常态下,银行业内外部环境正发生着深刻变化


移动互联网、云计算、大数据技术迅猛发展,使银行业务从适应工业经济的大额低频金融交易向适应网络经济的小额高频交易转变,信息系统面临着业务规模爆发式增长的强烈冲击。与此同时,客户、市场和监管对银行信息系统服务连续性的要求越来越严格。商业银行信息科技工作已经迈入了战略深化、架构优化、管理细化的新常态。


农业银行第四代核心业务系统BoEing建成投产,为农业银行打造了业界领先的技术架构和业务架构,不仅在业务服务目标上支持“以客户为中心”和产品快速创新,同时以大幅度的基础架构创新为信息系统更为安全、平稳、高效运行奠定了技术基础,推动了运维管理水平全面提升。


一、信息系统安全生产面临新的挑战


20世纪90年代,为满足银行业务发展和运营集约化的需要,农业银行设计研发了第三代核心业务系统ABIS。以ABIS为核心的应用体系全面覆盖并较好满足了农业银行各领域经营管理需要。以ABIS建设和全国数据大集中为标志,农业银行的信息系统安全生产工作步入大型数据中心管理模式。


在科技发展战略上,农业银行始终将安全生产作为头等大事,以安全促发展,以发展促安全,大力推行准军事化管理,先后引入ISO20000、ISO27001等质量管理体系,建立以“快速响应、快速定位、快速处置”为指导原则的“三快”应急处置机制,安全生产工作取得了良好成效,连续5年无重大生产运行事故发生,核心系统主要业务服务时段可用率超过99.96%,为农业银行业务经营的稳健发展提供了有力保障。


近年来,在移动互联网、云计算、大数据等新技术的驱动下,基于互联网的各种网络金融业务蓬勃发展,给银行信息系统生产运行带来前所未有的压力和挑战。


一是信息系统运行安全压力倍增。基于互联网的电子渠道业务快速发展对银行提出7×24小时不间断的服务需求,金融服务向全球化、全天候发展,给IT生产运行带来巨大压力。目前商业银行电子渠道交易大幅度增长,交易占比增长到90%以上。银行核心系统日均交易总量以每年约25%的速度增长,增量基本上全部来自于电子渠道。


在新型商业模式推动下,银行业务特征发生急剧变化,小额高频业务占据主流,交易量“潮涨潮落”日益频繁,传统的低频交易时段与区域,也极有可能出现爆发式交易增长,对数据中心并发处理能力带来巨大挑战。


二是信息系统运维工作的复杂度日益增大。随着银行产品的多样化,信息系统的交易形态呈现联机实时交易、周期性批处理交易、即时性批处理交易等多种形式,增大了生产运行作业的复杂度。同时,为保障国家和社会重大活动、重要时段的服务水平,银行能够比较从容地对信息系统进行维护、变更、升级的可用时间窗口很少,给生产运行调度排程管理带来很大难度。


三是数据信息安全面临空前考验。几乎是与互联网共生的网络安全问题,包括病毒传播、黑客攻击、信息窃密等,已成为银行数据中心的重要安全威胁。商业银行必须不断完善金融信息安全保密机制和应急处理机制,提升数据中心信息系统的检测、预警、防范、应急处理和自我恢复能力,最大限度降低数据安全风险,保护客户数据安全,保障业务持续稳定运行。


为有效应对日益严峻的信息系统安全生产新形势、新挑战,农业银行从技术和管理上双重发力,大力推进系统基础架构优化,从根本上提升安全生产水平。


BoEing系统在设计之初,就在架构集中统一、应用透明灵活、IT成本降低方面进行了充分考虑。以BoEing系统建设为契机,农业银行对核心业务系统和120多个关联系统进行了整体升级改造。BoEing系统上线运行3个多月来,各项运行指标平稳,应用效果理想,顺利应对多个不断攀升的交易量高峰,IT架构的优势逐渐显现。


二、BoEing系统设计中的基础架构创新


基于新时期的业务需求和对未来业务发展的研究,农业银行在BoEing系统建设中倡导“集约、高效、节能”理念,对基础架构重新进行了设计


BoEing系统基础架构继续沿用了核心数据在主机平台,业务展示与外围应用网关在开放平台的部署方式,同时在通信接入方式、应用负载均衡方式、交易功能部署等多个方面重点进行了优化设计,使得新的核心业务系统可用性和健壮性更强,资源消耗更加节约,运维操作更加简洁。


1.创新主机通信接入模式


传统的主机系统架构中,通常包括一个中间环节,以解决主机上基于SNA通信协议与外围TCP/IP通信协议之间的转换问题。这个中间环节的存在,降低了运行效率,增大了系统资源消耗,增加了运行故障点。


农业银行在BoEing系统设计中,在行业内首次将基于主机的三层架构简化为两层架构,在主机上直接采用TCP/IP短连接接入方式,去除了主机接入中间层,形成一种扁平化的架构。这种架构构建了一个弹性好、可扩展强的基础平台。


2.提升系统可用性


在BoEing系统的两层架构中,以应用层负载均衡设备作为桥梁。这道桥梁隔离了数以万计的前台终端设备对后台的直接冲击,可以动态调配交易负载。


对于主机系统单个逻辑分区(LPAR)或单个交易中间件分区(CICS)可能发生的异常,通过负载均衡设备可自动侦测和规避,从而显著提升系统的整体可用性。利用负载均衡设备接入的渐出、渐入机制,运维部门的计划性停机维护对交易的影响由5分钟以上降低为秒级的瞬间影响。按照农业银行一年实施6次计划性停机维护估算,主机核心业务系统全年可增加30分钟有效对外服务时间。


3.合理均衡系统的应用负载


为适应新研发的BoEing体系,农业银行对主机系统架构进行了重新设计,在不增加主机资源成本投入的条件下,对系统架构进行了大规模的改造。


包括增加主机耦合体(SysPlex)中的逻辑分区(LPAR)数,将4个应用逻辑分区调整为8个,并同步增加耦合体中系统成员数(Members),增加CICS和DB2的处理单元。基础架构的调整,有效适应和支撑了新的应用系统,尽管BoEing系统的应用逻辑较第3代系统更为复杂,但通过优化改造,主机CPU资源消耗减少了约10%,交易的平均响应时间缩短了约8%,优化效果凸显。


4.简化应用部署架构


BoEing系统的应用架构是基于金融业务数据模型重构的,新的系统整合了银行基础产品的公共构件,使很多原先分布于外围系统的产品,包括信用卡、基金、国债、理财产品等,整合到核心系统中,使系统架构更加精简,系统的可靠性和稳定性提升到更高水平,使日常运维流程得以有效简化。


5.优化功能和数据分布


为缓解业务量的快速增长与昂贵的主机资源投入之间的矛盾,在BoEing系统设计中优化了应用功能与数据分布策略,将主机中非核心产品和服务剥离至开放平台,形成主机和开放平台融合的基础架构。通过将主机系统中实时查询类交易下移到PC服务器集群,单交易对主机MIPS的消耗平均降低了70%左右。同时,进一步将历史交易明细数据下移到Hadoop集群,使历史数据交易的存储和查询完全脱离主机系统。这些措施显著降低了主机的运行负载和资源投入。


6.改进应用系统监控方式


在BoEing系统应用监控功能的设计上,改变以日志采集作为监控数据源的方式,采用了流量镜像技术。通过流量镜像技术实现应用监控功能具有明显优势:一是对监控维度和监控指标的适应性和可扩展性强,可以灵活地根据运维和管理需要采集不同维度的数据,将监控信息集中于即时的关注点。二是这种技术不消耗宝贵的主机计算资源,不因监控功能的需要而增加主机系统运行压力。


三、深化利用新系统架构优势,推进生产运行管理水平提升


BoEing系统的上线为农业银行安全生产运行和业务快速创新奠定了基础。接下来,数据中心将充分发挥基础架构领先的优势,坚持“生产安全、运行稳定,支持有力、服务高效,操作严谨、管理规范”的管理方针,深入推进生产运行体系建设,提升生产运行管理水平。


1.研究和创新容灾体系架构


BoEing系统更加简洁高效的体系架构,为农业银行深入研究更加科学、实用的企业级容灾架构打下坚实基础,从而可能突破通常意义的“两地三中心”概念,以提升RPO、RTO指标水平为目标,以真正保障业务连续性为宗旨,以应用级“双活”、“多活”和自动化、“一键式”切换为特征,以尽量小的建设、运维、演练和管理成本,构建出新的容灾技术实现方案。


2.建设灵活高效的资源管理机制


BoEing在技术架构上的创新,为IT资源循环利用提供了可能。下一步,数据中心要深入推进IT资源从规模投入向循环利用转变。一是通过实施配电、布线、空调等基础设施优化等举措,有效节能降耗,打造资源节约型和环境友好型的绿色数据中心;二是采用虚拟化、云计算等新技术,增强服务器等系统硬件的可扩展能力;三是完善系统下线和资源回收机制,适时下线投入产出低、耗费资源大的低效IT系统,实现运维资源有效运转和循环利用。


3.推进生产运行量化管理


建立容量监测指标体系,将总分行信息系统、设施设备的重要技术容量指标纳入统一管理,形成全行统一的容量监测指标体系。以容量监控为核心,建立各专业、跨专业的容量例行监控和异动指标分析机制,对超过容量阈值的情况进行分析。以阈值后评估为抓手,定期对阈值达成率、资源消耗率及阈值修订情况进行回顾,动态完善容量监测指标体系。


4.持续提升应急管理水平


立足安全生产第一线,将应急管理视角由聚焦事中向事前、事后延伸


事前持续加强预警和风险转移,加强监控分析,完善预案和演练,推进真演实练。


事中按照“优先恢复系统对外服务”的原则,确定应急处置方案,提高应急处置效率,做到快速响应、快速定位、快速处置。


事后注重将应急经验修改到应急预案中,不断完善应急处置流程,在可预期的场景下,探索建立标准化流程和自动化处理措施,减少高压环境下人为误操作概率。


5.强化生产运行数据分析与应用


以生产运行活动中重要容量、交易数据为基础,建立完整的数据资源应用和管理体系,提高数据信息资源的可用性和利用率。梳理生产运行数据服务目录,将例行数据统计、报送等工作进行自动化管理,提升数据服务效率。研究并引入数据分析模型,开展各专业专题运行数据分析和跨领域的综合运行数据分析,加强数据分析结果应用,提升数据服务能力。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多