【作者】rruigg,某大型保险云平台架构师,在云计算方向的领域具有丰富的经验,主要负责云平台的架构规划工作。 一、前言随云计算技术近年来的应用场景越来越多,云计算相关技术也逐渐成熟,平台的服务能力和种类越来越完善,基于分布式架构技术的IT 技术在运营规模、技术能力、客户体验等方面表现出超越传统企业级IT的能力。传统企业及IT厂商也在加速在云计算领域的布局和转型,在分布式技术体系的标准化、产品化和云运维服务体系化等各个层面大力投入,持续推出企业级云计算产品并不断完善配套的技术支撑能力。 国家不断出台信息化建设相关的各种政策和指导意见中都提到了云计算的建设要求和标准,大力推动政府和各企业利用云计算技术提高生产效率并进行业务创新。中国银保监会更是在2018年发布了《中国保险业发展“十三五”规划纲要》,纲要明确指出:要积极推动云计算、大数据在保险行业的创新应用,加快数据采集、整合和应用分析。但保险业上云对于安全、可靠和合规的要求极高。在企业IT架构从单体架构向分布式架构转变过程中,如何在提升效率的同时有效控制新技术引入带来的风险,成为摆在所有保险企业面前的一道难题。做为直面用户的窗口,云管平台给用户感受是最为直接的,云管平台的设计好坏与否,直接影响着用户的使用体验和效率,本文就云管平台建设过程中的一些思考和经验与大家进行一些分享。 二、云管平台的定义众所周知云是分层的。目前大家公认的云架构是划分为基础设施即服务层(IaaS)、平台即服务层(PaaS)和软件即服务层(SaaS)三个层次。这三个层次的组件实现的是对资源的管理和服务化,更多的是贴近于资源侧,不具有业务属性、流程管理、计量计费等内容,也称之为云平台。云管平台则是用户使用云平台的入口,它天生附带企业独有的业务特征和行业属性。资源的管理、风险的管控、IT资产管理,以及企业的组织架构都是云管平台得以成功构建并持续运行的基本元素。本文和大家分享的是云管平台的建设经验,并不涉及云平台的思考和构建细节。 云管平台(Cloud Management Platform,简称CMP)最早是由Gartner提出的企业云战略中一种产品形态。为了更好地管理资源,Gartner对云环境进行了分层定义(见图1): 图 1
三、云管平台的建设方式选择私有云通常有两种建设方式:一种为公有云私有化部署,阿里专有云即属于这种;另外一种即通过OpenStack构建。由于OpenStack的投入成本相对较低,相对公有云来说,OpenStack更加灵活,易于定制,更适合依据企业特点量身打造个性化云平台。对于公有云私有化部署方式,公有云厂商已经提供了一套完整的云管理平台,用户可以开箱即用或者做少量的定制开发即可满足需求。而通过OpenStack进行构建的私有云,就需要用户自行考虑如何构建或者购买第三方的专业云管产品。 原生的OpenStack已经提供了Horizon组件,一个Dashboard图形界面工具,可以提供极其有限的资源管理。OpenStack的Horizon并不是完整意义上的CMP,其有限的功能对企业级云平台而言是不完备的,作为OpenStack的Dashboard项目,它还缺少很多核心功能。OpenStack社区也推荐采用专用性强的Cloud Management Tools纳管云平台,这是被OpenStack官方所认可的管理OpenStack的标准方法之一。所以,企业通常选择通过全新开发方式或者选择专业的云管产品来构建自己的云管平台。 四、云管平台在设计时需要关注的重点从传统IT到云计算模式,企业IT的管理模式需要从“运行管理”向“服务运营”进行转变。转变的过程可能是纠结而痛苦的,但是IT部门不得不直面现实。当业务创新的速度开始倒逼IT服务的响应能力时,研发和测试人员对IT资源与应用的持续交付效率、质量的要求越来越高。随着业务的持续发展,企业IT的规模也逐渐膨胀,运维工作量随着设备的增加而成几何指数增长。IT部门必须从既往的惯性中挣脱出来,逐渐将资源交付、应用上线服务化,从管理者身份向服务运营管理的角色过渡。在这一转变进程中,CMP扮演着“云服务中心”核心能力支撑平台的角色。 云管理平台在云计算的体系结构中,是最贴近用户侧的一层,是用户使用服务和运营管理的入口,其核心作用在于整合基础设施,提供访问控制、服务管理、服务编排以及运营管理。云管平台的设计和实现主要关注在以下几个方面(图2): 图2
五、云管平台建设中的经验分享云管平台除去做为资源管理平台的入口职能以外,还涉及资源全生命周期管理过程中的相关流程管控,是云平台和企业周边系统的互通通道,也是多种信息的汇聚以及集中的展现的平台。云计算体系是一个复杂的系统工程,在云管平台建设过程中,涉及到企业方方面面的改变,不可避免的需要现有IT管理模式、组织架构、财务管理模式等众多领域或多或少的进行适配和调整,这里就其中几点和大家进行分享: 1)运维及管理流程的变化 云平台建设过程是一个IT环境标准化、自动化的落地过程。云计算技术是通过把公共组件标准化并最终服务化,使其对具体业务部门完全透明,降低运维部门自身的运维成本,同时提高业务部门的开发效率。 在云平台出现以前,企业内部的IT管理方法大多已经成型且已运作多年,相关的资源管理流程、风险管控流程等环节中存在大量的线下流程和非标准流程,和云计算的批量化、自动化、智能化存在一定程度的冲突,并不完全适配。云管平台的建设,对这些既有流程形成了一定冲击,需要进行适当的改变以适配新的资源管理模式。 举例来说:在传统IT组织架构下,数据中心可能会分成网络、系统、存储、应用等不同专业团队,在传统IT环境应用与系统、硬件与软件等不同IT基础设施间界面清晰,专业领域相对来说壁垒分明。云平台是一个技术组件繁多,技术堆栈众多的平台,一个组件的维护很可能就需要涉及到容器、中间件、系统、存储、SDN网络等多个知识领域。这就要求现有运维人员打破壁垒,通力合作,技能做相互融合,由此产生的多个部门或者团队间的融合需求。 另外,近年来企业安全事故频发,金融企业对于系统安全的重视程度是越收越紧,监管要求也是越来越严格,由此导致数据中心的各种审批流程纷繁复杂。金融的强监管模式云平台带来的规模效应在多数企业内无法体现出明显的优势,而IT服务标准化、资源管理自动化则成为多数企业的实际关注重点。为此,在资源生命周期管理过程中,风险管控流程需要进行合理设计,可灵活适配不断变化的监管要求。 2)运维职责边界变得模糊 传统管理模式下的IT,各个团队的边界较清晰,相互的交接界面较为明确。通过云平台打通了IT资源交付渠道的同时,自动化联动的资源交付模式使得各个专业团队的运维边界产生了交叉和模糊。因此,云管平台在设计时,资源的调度和生命周期管理过程中所涉及到的流程、团队职责需要细致调研、谨慎设计,尽可能的推动当前已有的流程和团队分工,包括不同环境(生产、开发、测试)向未来标准化、统一化方向进行演进,短期内应避免在构建平台的同时对现有流程和团队职责产生较大冲击和改变。 3)用户行为的控制 云管平台的建设,通常除了实现统一的资源管理框架以外,多数还带有向用户开放自助服务的能力。但是在云管平台建设之初,就需要考虑清楚如何降低用户的学习成本,可以使其迅速上手的使用产品;告知有价值的信息,减少时间和精力开支;提前预知帮助,愉快的学习使用云计算平台。所有提供的信息需要清晰、易懂、无二义性。同时,对外开放的服务需要从云管平台侧加以足够的信息引导和限制。 在大多数企业中,使用云平台自助服务的用户多数是应用开发或维护人员,对于基础架构方面的知识薄弱。因此,在提供给用户自助使用的服务时所需要提供的要素,需要清晰明确。例如:当云平台中存在多个资源池时,用户在申请资源时就必然要选取恰当的资源池,此时就要求云管平台给与足够的信息,引导用户能够清晰的判断所要使用的资源所处的资源池,否则就会造成用户的困扰。 为了使用户能够更快的做出判断,选择合理的路径实现服务的管理,需要在云管平台中通过某种手段或方法,干预目标对象的决策和发展,促使其更快地接近目标。简单来说,就是需要从用户视角出发,对于信息的接收和选择做出适当的引导和控制。在需要提供某些信息来使用一项服务时,输入元素是否存在限制条件,相关内容是否存在合规检查,这些都是需要仔细设计的。举例来说,当用户申请防火墙规则时,是否可以输入网段而非具体的业务IP地址,是否可以允许用户输入A类、B类网段,对于网络的输入格式是192.168.1.0/24还是192.168.1.0/255.255.255.0等,都是需要从云管平台后台的实现逻辑上予以控制的。 六、结束语'科技以人为本',是昔日手机巨擘诺基亚的广告词。时过境迁,虽然诺基亚已经辉煌不再,但这句广告词绝对是经典中的经典。科技要有人用才有存在的意义,云计算是一项复杂的IT工程,所以更需要以人为本,从用户视角出发,在云管平台的设计中融入人机交互理念,通过合理的设计和实现让复杂的云平台的变得舒适、简单、自由,充分发挥云计算中各项服务的定位和特点。
|
|