【作者】张志强,某大型制造企业IT基础设施部高级经理 概述在大数据、云计算、物联网等新技术的发展下,我们已经从信息时代迈入数字化时代。 信息技术已成为最活跃的生产力要素,促使生产模式发生重大的变革,引发互联网经济蓬勃发展。作为企业数字化转型的基础与支撑,得到了企业高层的高度重视。 随着数字化在各个企业的深耕,服务于大众吃、喝、住、行、用等多个方面,每天源源不断的产生巨大的数据量,为企业的运营提供有力的决策,数据已经成为决定企业命运的核心资产。数据量呈指数级的增长已经成为常态,数据备份和灾难恢复就成为炙手可热的主题,也是信息安全技术领域中的一个重要的研究方向和发展重点。 2020年至今,全球勒索事件、数据泄漏等安全事件层出不穷,呈现逐年上升趋势。据不完全统计,受损失的企业达到数万家,造成的直接经济损失数以亿计。仅2018年上半年 ,全球每天有超过2500万条个人数据遭到入侵或泄露,涉及金融、医疗、制造等多个行业。直至现在,越来越多的网络安全事件爆发,黑客攻击手法也越来越复杂和多样化。面对如何严峻的形势,我们亟需构建一套属于自己的灾难恢复架构,构建企业最后一道生命线。 什么是灾难恢复?灾难恢复听起来有点高大上,不好理解,其实它有个最基础的元素,也是管理员定期都会做的,就是数据备份。我们做数据备份的目的就是防止系统出现操作失误或者系统故障导致数据丢失时候,可以迅速的恢复数据,恢复生产。而灾难恢复要稍微复杂一些,除了考虑数据本身,还要考虑硬件、软件和应用自身,是涵盖面更广的业务连续性规划的一部分,其核心是对企业的灾难性风险做评估、防范,特别是对关键性业务数据、流程予以及时记录、贝恩和保护。翻译成大白话就是灾难发生后,可以迅速将生产平台恢复到正常运营的能力。 灾难恢复的重要性?灾难恢复的重要性不言而喻,为什么称它为企业经营的最后一根稻草,绝不是危言耸听。 给大家简述一个现实的例子,说明一下灾难恢复的重要性。 前面已经介绍过了,目前的勒索病毒已经瞄准金融业、制造业及医疗等重要行业。我的一个朋友是某零部件产品制造企业的安全负责人,学历高、技术牛、经验丰富,典型的I T界“高、富、帅”。但是他在2018年经历了人生第一个重大安全事件,让他终生难忘,甚至回想起来还冒一身冷汗。 当天他正在开会,突然电话响起,对方告知公司的一个销售系统宕机,服务起不来,当时没有意识到时大事,只是说会后过去支持。到现场才发现,所有销售的数据库被加密,只留下txt勒索文件,告知如何交付赎金进行解密,此时他才意识到大事不妙。经过全系统排查,共发现中毒系统30多套,整个生产瞬间停滞 。 幸亏大多数系统都进行了数据备份,除个别系统需要手动录单外,其余的系统均已通过备份系统恢复,将损失降低到最小。 天有不测风云,人有旦夕祸福,通过这个血淋淋的案例,大家应该意识到灾难恢复( 不仅仅是数据备份 )对 IT人员的重要性和企业最后一根救命稻草的含义了 。 灾难恢复要点任何系统在设计和建设阶段都会有相关的指标和规格约束,确保系统的完整性、稳定性和可用性。 灾难恢复资源要素根据大多数的专家经验,总结了一些信息系统灾难恢复管理规范中,关于灾难恢复资源的描述,仅供参考,灾备负责人可以根据企业实际需求进行斟酌: 备用的基础设施: Ø 主用基础设施以外的备用基础设施选址尤为重要,无论从距离上、备份线路上还是政策上都是考虑的重点; Ø 基础设施建设符合国家机房建设标准,具体级别参考主机房; Ø 备用基础设施具备完善的工作辅助设施和生活设施。 数据备份系统: Ø 根据业务系统特性,提前定义数据备份的范围和频率; Ø 定期整体RPO和RTO指标,分解到不同的业务系统; Ø 充分考虑数据备份系统与现有生产系统的兼容性; Ø 选择成熟稳定的数据备份系统,同时一定要考虑后期服务支持。 网络系统: Ø 备用基础设施网络通信系统的选择,建议与主用基础设施保持一致; Ø 备用通信线路要冗余,避免单点故障; Ø 要定期对备用通信线路的使用情况进行监控 。 灾难恢复预案: Ø 要提前做好灾难恢复预案: Ø 根据业务实际需求提出备份的管理要求; Ø 制定备份恢复流程; Ø 定期进行培训和演练。 运维管理: Ø 定义运维管理组织架构; Ø 制定运维管理制度; Ø 制定相关的考核指标。 技术支持能力: Ø 培养自身的技术支持能力; Ø 引入专业的灾备团队进行支持; Ø 软件、硬件和网络等方面的技术支持要求。 灾难恢复能力等级灾难恢复根据投资和业务需求的不同,会采用不通的技术实现,自然就会有不同的灾难恢复能力之分。以下结合自身总结的一些灾难恢复架构方案经验对其进行等级划分, 仅供参考。
灾难恢复关键指标 容灾恢复的关键指标是SLA的前提条件,不同企业不同要求,个人经验仅供参考:
灾难恢复架构本例以曾经做过的灾备案例为范本进行说明,利用两地数据中心进行数据级别的灾备。 灾难恢复的原则为保证灾难恢复架构涉及更符合业务需求,更贴合企业实际情况,应遵守以下原则:
常用灾难恢复方式 在工业互联网的大背景下,制造行业不管是大企业还是小企业在日常运营中都需要服务器、 网络等基础架构来部署业务,保持业务的稳定持续运行。制定和执行一个可用的灾难恢复方案就显得至关重要。一旦发生不可预知的灾难,尤其数据丢失造成的损失是无法计算的。 随着灾备技术的发展,各种灾备方式突显,如本地灾备、异地灾备、云灾备、混合灾备等等方式。根据不同的灾备需求和业务重要程度,所采用的灾备技术也是不同的。从开源的到商用的,从新兴的到成熟的,各有千秋,各有不同。以下举三个常用灾备方式:
本地备份按照上文所说的要素和等级来看,投资最小、效果较差,但是适应小型企业和对数据完整性要求不高的场景。可以通过软件自带的数据复制功能、底层存储的remote copy功能进行本地存储间备份。数据可以快速恢复,但是备份周期内的数据无法恢复,有丢失数据风险。同时如果本地基础设施被破坏,已造成全部数据丢失或失效。
我们知道金融行业的数据几乎没有丢失的情况,那是因为他们在灾备方案上煞费苦心。为了确保数据中心的可靠性,基本都会在不同区域各建一个数据中心用来放置服务器和存储数据,实现主备分离。正常情况下主中心工作,另外两个作为灾备中心,三个数据中心的数据实时同步更新。确保所有服务器不会放在同一个地方,就算战争、地震等损毁了两个中心,也不会影响业务的正常办理。万一发生极端情况三个中心全部遭到破坏,还有离线备份的数据,数据安全性得到保障。
随着云计算的发展,混合云架构越来越被企业所重视。利用混合云架构实现云灾备是个不错的选择。云灾备作为灾备领域的一种新的灾备方式,正在被更多的企业所接受。通过引入专业的云灾备服务商,按需付费使用灾备服务,实现线上线下相结合。可以利用服务提供商的优势技术资源、丰富的灾备项目经验和成熟的运维管理流程,快速实现业务的灾备目标,降低灾备系统的运维成本和灾备系统的总体拥有成本。 灾难恢复的思考运维一个完整的灾备系统离不开技术与管理,正所谓“三分技术,七分管理”。要保障灾备系统的稳定性和数据的安全性,除了有必要的技术手段支持以外,还要考虑组织和管理的因素,也就是人、流程与制度的因素。 组建合理的灾备组织架构灾备作为企业的最后一道防火墙一直以来都是IT领导最重视的领域,会在企业内设立专门的灾备小组或者委员会,制定集团整体灾备系统的解决方案,并负责灾备工作的指导与推广。 同时在企业内会设立灾备架构师,对集团灾备工作进行具体的规划与执行,确保企业核心数据的可用性、完整性和可靠性。 流程化管控企业的灾备系统按照规划建设完成,这只是数据安全保障的第一步,或者说是前提 。之后大部分的工作都是在系统的运营中。结合PDCA,通过迭代更新的方法论,对灾难恢复策略和运营进行持续化改进 ,增强企业数据灾备及应用级灾备的整体能力。 正所谓“制度管人,流程管事 ”。基于流程化管理,灾备团队可以根据不同的业务需求、备份场景进行快速响应和精确处理,为企业核心数据安全提供保障。 结束语在灾难备份系统建设中,数据备份是关键,也是基础,做好灾难备份建设,通过有效的灾难恢复机制,以确保企业业务连续性,减少因为数据丢失等给企业带来的损失。本文简述了灾备的重要性,并未深度解析灾备的各种技术和实现,在后续发布在社区的文章中将陆续更新。
|
|