灾难恢复架构规划要点

yi321yi 2022-01-29

展开全文

【作者】张志强，某大型制造企业IT基础设施部高级经理

概述

在大数据、云计算、物联网等新技术的发展下，我们已经从信息时代迈入数字化时代。

信息技术已成为最活跃的生产力要素，促使生产模式发生重大的变革，引发互联网经济蓬勃发展。作为企业数字化转型的基础与支撑，得到了企业高层的高度重视。

随着数字化在各个企业的深耕，服务于大众吃、喝、住、行、用等多个方面，每天源源不断的产生巨大的数据量,为企业的运营提供有力的决策，数据已经成为决定企业命运的核心资产。数据量呈指数级的增长已经成为常态，数据备份和灾难恢复就成为炙手可热的主题，也是信息安全技术领域中的一个重要的研究方向和发展重点。

2020年至今，全球勒索事件、数据泄漏等安全事件层出不穷，呈现逐年上升趋势。据不完全统计，受损失的企业达到数万家，造成的直接经济损失数以亿计。仅2018年上半年，全球每天有超过2500万条个人数据遭到入侵或泄露，涉及金融、医疗、制造等多个行业。直至现在，越来越多的网络安全事件爆发，黑客攻击手法也越来越复杂和多样化。面对如何严峻的形势，我们亟需构建一套属于自己的灾难恢复架构，构建企业最后一道生命线。

什么是灾难恢复？

灾难恢复听起来有点高大上，不好理解，其实它有个最基础的元素，也是管理员定期都会做的，就是数据备份。我们做数据备份的目的就是防止系统出现操作失误或者系统故障导致数据丢失时候，可以迅速的恢复数据，恢复生产。而灾难恢复要稍微复杂一些，除了考虑数据本身，还要考虑硬件、软件和应用自身，是涵盖面更广的业务连续性规划的一部分，其核心是对企业的灾难性风险做评估、防范，特别是对关键性业务数据、流程予以及时记录、贝恩和保护。翻译成大白话就是灾难发生后，可以迅速将生产平台恢复到正常运营的能力。

灾难恢复的重要性？

灾难恢复的重要性不言而喻，为什么称它为企业经营的最后一根稻草，绝不是危言耸听。

给大家简述一个现实的例子，说明一下灾难恢复的重要性。

前面已经介绍过了，目前的勒索病毒已经瞄准金融业、制造业及医疗等重要行业。我的一个朋友是某零部件产品制造企业的安全负责人，学历高、技术牛、经验丰富，典型的I T界“高、富、帅”。但是他在2018年经历了人生第一个重大安全事件，让他终生难忘，甚至回想起来还冒一身冷汗。

当天他正在开会，突然电话响起，对方告知公司的一个销售系统宕机，服务起不来，当时没有意识到时大事，只是说会后过去支持。到现场才发现，所有销售的数据库被加密，只留下txt勒索文件，告知如何交付赎金进行解密，此时他才意识到大事不妙。经过全系统排查，共发现中毒系统30多套，整个生产瞬间停滞。

幸亏大多数系统都进行了数据备份，除个别系统需要手动录单外，其余的系统均已通过备份系统恢复，将损失降低到最小。

天有不测风云，人有旦夕祸福，通过这个血淋淋的案例，大家应该意识到灾难恢复（不仅仅是数据备份）对 IT人员的重要性和企业最后一根救命稻草的含义了。

灾难恢复要点

任何系统在设计和建设阶段都会有相关的指标和规格约束，确保系统的完整性、稳定性和可用性。

灾难恢复资源要素

根据大多数的专家经验，总结了一些信息系统灾难恢复管理规范中，关于灾难恢复资源的描述，仅供参考，灾备负责人可以根据企业实际需求进行斟酌：

备用的基础设施：

Ø 主用基础设施以外的备用基础设施选址尤为重要，无论从距离上、备份线路上还是政策上都是考虑的重点；

Ø 基础设施建设符合国家机房建设标准，具体级别参考主机房；

Ø 备用基础设施具备完善的工作辅助设施和生活设施。

数据备份系统：

Ø 根据业务系统特性，提前定义数据备份的范围和频率；

Ø 定期整体RPO和RTO指标，分解到不同的业务系统；

Ø 充分考虑数据备份系统与现有生产系统的兼容性；

Ø 选择成熟稳定的数据备份系统，同时一定要考虑后期服务支持。

网络系统：

Ø 备用基础设施网络通信系统的选择，建议与主用基础设施保持一致；

Ø 备用通信线路要冗余，避免单点故障；

Ø 要定期对备用通信线路的使用情况进行监控。

灾难恢复预案：

Ø 要提前做好灾难恢复预案：

Ø 根据业务实际需求提出备份的管理要求；

Ø 制定备份恢复流程；

Ø 定期进行培训和演练。

运维管理：

Ø 定义运维管理组织架构；

Ø 制定运维管理制度；

Ø 制定相关的考核指标。

技术支持能力：

Ø 培养自身的技术支持能力；

Ø 引入专业的灾备团队进行支持；

Ø 软件、硬件和网络等方面的技术支持要求。

灾难恢复能力等级

灾难恢复根据投资和业务需求的不同，会采用不通的技术实现，自然就会有不同的灾难恢复能力之分。以下结合自身总结的一些灾难恢复架构方案经验对其进行等级划分，仅供参考。

等级	等级描述	内容描述	特点
基础	基础级备份，仅仅满足一定备份周期内的数据不丢。	· 每周至少进行一次数据备份；· 备份介质本地存储；· 无专业备份系统支持；· 周期外数据完整性无保障。	· 定期备份；· 本地存储；· 不具备统一管理能力。
中级	中等级备份，仅仅满足一定备份周期内的数据不丢。并可以实现外部介质存储。	· 每周至少进行一次数据备份；· 备份介质采用外部存储；· 无专业备份系统支持；· 周期外数据完整性无保障。	· 定期备份；· 异地存储；· 不具备统一管理能力。
高级	高级别备份，可以满足大多数企业对数据安全的要求，满足备份数据不丢。	· 每周至少进行一次全量数据备份，每天进行增量备份；· 备份介质支持外部存储；· 具备专业备份系统；· 数据完整性有保障；· 实现异步/同步数据复制。	· 定期备份；· 异地存储；· 业务性能由同步机制决定；· 具备统一管理能力。
企业级备份	应用级灾备，可以满足大企业对业务和应用级双活的要求，实现真正意义的灾备切换。	· 每周至少进行一次全量数据备份，每天进行增量备份；· 备份介质支持外部存储；· 具备专业备份系统；· 数据完整性有保障；· 多数据中心间进行应用级切换，不影响业务；· 实现异步/同步数据复制。	· 定期备份；· 异地存储；· 业务性能由同步机制决定；· 应用切换零宕机；· 具备统一管理能力。

灾难恢复关键指标

容灾恢复的关键指标是SLA的前提条件，不同企业不同要求，个人经验仅供参考：

指标	描述
RTO-Recovery Time Objective：恢复时间目标	系统宕机导致业务停顿开始，到系统恢复至可支持业务运营，两点间的时间段。即可容许服务中断的时间长度。
RPO（Recovery Point Objective）：数据恢复点目标	从系统和数据而言，要实现能够恢复到可以支持业务运营，使系统及生产数据恢复到何种更新程度。即损失的数据量，即恢复的数据所对应的时间点

灾难恢复架构

本例以曾经做过的灾备案例为范本进行说明，利用两地数据中心进行数据级别的灾备。

灾难恢复的原则

为保证灾难恢复架构涉及更符合业务需求，更贴合企业实际情况，应遵守以下原则：

注意事项	原则
对业务运营的影响	应尽量避免或降低对正常业务系统正常运行的影响
关键的业务周期	测试活动应安排在非业务高峰期，以避免或降低对业务运营的风险
分离关键的组件	如果测试对特定业务的中断无法避免，应当在一个可接受的时间段内，将所涉及的服务组件与会受影响的业务进行隔离，进行测试
保证足够的人员支持生产系统	确保有足够的资源维护和支持生产系统灾备活动
恢复流程准备就绪	管理流程开发完成，编写相关的灾难恢复方案与恢复步骤，并进过适当的测试
对真实场景的模拟程度	测试的场景设计应当最大程度的反应最坏的灾难情况
容灾演练	演练过程中应当尽可能的不要降低生产系统的容灾保护程序；如果无法避免，应考虑采用一些措施保证演练期间生产系统的容灾保护备份
应用系统的分组	具有高度依赖性和多个应用，应当尽可能安排在同一次演练中

常用灾难恢复方式

在工业互联网的大背景下，制造行业不管是大企业还是小企业在日常运营中都需要服务器、网络等基础架构来部署业务，保持业务的稳定持续运行。制定和执行一个可用的灾难恢复方案就显得至关重要。一旦发生不可预知的灾难，尤其数据丢失造成的损失是无法计算的。

随着灾备技术的发展，各种灾备方式突显，如本地灾备、异地灾备、云灾备、混合灾备等等方式。根据不同的灾备需求和业务重要程度，所采用的灾备技术也是不同的。从开源的到商用的，从新兴的到成熟的，各有千秋，各有不同。以下举三个常用灾备方式：

本地：

本地备份按照上文所说的要素和等级来看，投资最小、效果较差，但是适应小型企业和对数据完整性要求不高的场景。可以通过软件自带的数据复制功能、底层存储的remote copy功能进行本地存储间备份。数据可以快速恢复，但是备份周期内的数据无法恢复，有丢失数据风险。同时如果本地基础设施被破坏，已造成全部数据丢失或失效。

两地三中心：

我们知道金融行业的数据几乎没有丢失的情况，那是因为他们在灾备方案上煞费苦心。为了确保数据中心的可靠性，基本都会在不同区域各建一个数据中心用来放置服务器和存储数据，实现主备分离。正常情况下主中心工作，另外两个作为灾备中心，三个数据中心的数据实时同步更新。确保所有服务器不会放在同一个地方，就算战争、地震等损毁了两个中心，也不会影响业务的正常办理。万一发生极端情况三个中心全部遭到破坏，还有离线备份的数据，数据安全性得到保障。

混合云：

随着云计算的发展，混合云架构越来越被企业所重视。利用混合云架构实现云灾备是个不错的选择。云灾备作为灾备领域的一种新的灾备方式，正在被更多的企业所接受。通过引入专业的云灾备服务商，按需付费使用灾备服务，实现线上线下相结合。可以利用服务提供商的优势技术资源、丰富的灾备项目经验和成熟的运维管理流程，快速实现业务的灾备目标，降低灾备系统的运维成本和灾备系统的总体拥有成本。