在现代世界中,任何企业都可能不时遭受数据损坏和关键任务运营中断的困扰。然而,即使是短暂的服务中断也会损害客户的信任,并最终导致重大损失。企业,尤其是在虚拟机上运行服务的企业,必须创建虚拟机灾难恢复 (DR) 计划,以确保高可用性和业务连续性。我们在这里讨论故障转移和故障恢复在灾难恢复过程中的作用,并讨论了如何使用这些策略来保护业务。 什么是虚拟机灾难恢复?虚拟机灾难恢复 是在灾难发生后将业务基础架构恢复到正常状态的过程。灾难可能意味着任何使组织的运营面临风险的事件,包括自然灾害和人为灾害。虚拟机容灾的本质是恢复组织的虚拟化环境。任何灾难恢复流程的最终目标都是几乎立即恢复业务运营并保护最关键的数据,以确保业务连续性。 灾难恢复措施分为三种类型。 故障转移和故障恢复之间的区别灾难场景几乎总是出乎意料地发生。在灾难恢复事件中,在造成任何重大损害之前尽快恢复企业的虚拟化基础架构至关重要。故障转移和故障回复,可以帮助确保业务继续正常运行,即使生产站点受到灾难影响也是如此。 什么是故障转移?故障转移是从主生产中心转移关键任务工作负载并在异地恢复系统的过程。故障转移的主要目标是减轻灾难或服务中断对业务服务和客户的负面影响。当遇到软件或硬件故障时,可以通过故障转移到其副本来快速恢复受影响的虚拟机。使用 VM 副本进行故障转移在故障转移期间,远程站点上的虚拟机副本将启动以替换生产站点上的原始虚拟机。可以故障转移到最新的恢复点,该恢复点本质上代表特定时间点的虚拟机。尽可能频繁地运行复制作业可以让您创建多个恢复点,从而确保在发生灾难时将数据丢失降至最低。故障转移到副本是一种经济高效的解决方案,适用于发生硬件或软件故障时的灾难恢复。故障转移群集代表一组独立的计算机,它们协同工作以确保应用程序和服务的高可用性。故障转移集群由运行虚拟机的两个或多个互连的服务器(或节点)和保存虚拟机文件的共享存储组成。如果其中一台服务器发生故障,这些虚拟机将在另一台服务器上恢复。故障转移群集仅保护虚拟机免受硬件故障的影响。故障转移集群比故障转移到副本的成本更高。然而,它几乎提供了零停机时间,因为当灾难发生时,虚拟机会在辅助位置自动启动。什么是故障恢复? 灾难发生后恢复主站点并解决所有相关问题后,您可以将业务操作转移回源虚拟机。故障恢复有助于恢复源主机(或您选择的新位置)上的原始虚拟机,并将工作负载从虚拟机副本返回到原始虚拟机。但是,自故障转移以来,VM 副本中可能发生了一些更改。因此,在执行故障恢复之前必须同步原始 VM 和 VM 副本,以免丢失关键信息。在故障回复中,仅将更改的数据发送回原始系统。作为灾难恢复一部分的故障转移和故障回复过程 在DR事件期间,将启动故障转移和故障回复操作。该过程执行如下: VM 副本的虚拟磁盘上的数据与复制时源 VM 上的虚拟磁盘上的数据相同。如果发生灾难(或者预计会发生灾难),则会启动到 VM 副本的故障转移。 - 在故障转移期间,系统工作负载将转移到灾难恢复站点。但是,随着操作的继续,副本 VM 中可能会发生一些更改。保存此类数据非常重要,因为原始系统处于离线状态,未注册所做的任何更改。因此,所有更改仅写入 VM 副本的虚拟磁盘。
- 一旦灾难的负面后果得到纠正(或可能的威胁已经过去),主站点就可以照常运行。这样就执行了失败回滚操作;所有工作负载都从灾难恢复位置发送回生产站点,并且源虚拟机接收更新的数据。原始 VM 和 VM 副本变得同步。
虚拟机灾难恢复中故障转移和故障回复的最佳实践确保合规: 一些组织使用非常敏感和机密的数据,因此需要遵守不同的合规性要求,比如国外需要考虑HIPAA 或 PCI DSS 等法规。如果这适用必须检查您的故障转移和故障恢复的灾难恢复策略是否满足适用的安全标准。检查许可:查看软件文档并确定应用程序堆栈中是否存在任何许可限制。如果是这样,必须提前解决任何问题并确保满足所有要求。 定义灾难恢复计划的范围:VM DR 计划的范围确定应保护哪些系统并确定预期结果以及任何可能的限制。确保虚拟环境具有足够的技术能力来涵盖计划的所有方面。 选择可靠的数据保护解决方案:在虚拟环境中安装获得适当许可的数据保护解决方案对于高效性能和无缝集成至关重要。出于灾难恢复规划目的,必须确定产品恢复虚拟基础架构并将所有操作恢复到生产站点所需的时间。 决定谁负责故障转移和故障恢复:管理层应指定恢复团队的成员,并为每个团队成员分配具体的职责。确定谁负责监视故障转移和故障回复操作,以避免在重要的实际恢复场景中出现混乱。 对IT员工进行故障转移和故障回复操作培训:继上一点之后,请确保IT员工具备执行故障转移和故障回复操作所需的知识和资格。负责的员工应做好充分准备,以防出现意外情况;他们必须对运营有深入的了解,以便能够相应地适应并处理出现的任何问题。 查看服务级别协议 (SLA):服务级别协议是服务提供商与其客户之间的合同,确定提供商应满足的要求和服务标准。因此,请确保 SLA 是最新的,并且它们的适用性扩展到灾难恢复环境。 定义 RPO本质上是发生灾难时虚拟机可以恢复到的最远时间点。RTO和RPO应主要根据灾难场景期间组织的优先级来制定。尽管增加备份和复制作业的频率可能是一项耗时且占用资源的任务,但它可以显着提高RPO。较短的RTO应分配给优先级最高的组件,这些组件应首先恢复。请注意,应分别为应用程序和虚拟机建立RTO和RPO。考虑将灾难恢复站点转变为永久站点的可能性。 业务可能会受到巨大灾难的影响,导致无法恢复主数据中心。因此,请考虑将灾难恢复站点转变为永久站点的可能性,以便可以提前为这种规模的事件做好准备。显然,这是一种昂贵的解决方案,消耗大量资源并需要主要设备、软件和设施成本。即使您不立即执行该计划,考虑必须做什么也是有益的。测试故障转移操作。 通过测试故障转移过程,您可以检查您的虚拟基础架构是否可以在灾难恢复站点上正确恢复,并验证预装的应用程序是否可以在生产站点禁用时成功运行。测试故障回复操作。 这样,就可以确保公司的运营能够从灾难恢复站点成功恢复到原始站点。全面测试灾难恢复计划。 测试整个灾难恢复计划也是值得的;它可以通过模拟灾难恢复事件来帮助识别计划中的弱点。因此,可以改进和调整组织应用的灾难恢复策略。有缺陷且过时的灾难恢复计划可能会严重破坏组织的业务连续性。
备份和复制中的故障转移和故障恢复建议提供独有的站点恢复功能,能够创建任何复杂程度的自动恢复工作流程(或作业)。站点恢复 (SR) 工作流程涉及自定义操作序列,例如故障转移、故障恢复、启动/停止虚拟机、运行/停止作业、附加/分离存储库等。这些操作可以按任何顺序排列,以实现站点的完全自动化和编排。灾难恢复流程。此外,要可以随时轻松修改、补充或测试SR 作业,而无需中断生产环境。因此,即使是最复杂的灾难恢复计划也可以通过使用 SR 工作流程来构建、测试和顺利实施。灾难恢复中的故障转移故障转移操作是大多数 SR 工作流程不可或缺的一部分。仅当您之前创建了要保护的源虚拟机的副本时,才能执行涉及故障转移的站点恢复;当灾难发生时,这些被用作故障转移的目标。工作负载从受影响生产站点的源虚拟机传输到灾难恢复站点的虚拟机副本。 计划故障转移 用于在存在潜在威胁或预计发生灾难时对系统进行先发制人的保护。如果您已收到有关天气灾害的通知,或者该地区计划停电,可以启动计划的故障转移。在这种情况下,解决方案会在将工作负载传输到副本之前同步源虚拟机与其副本之间的数据;因此,完全防止了数据丢失。可确定故障转移策略是否有效以及在发生灾难恢复事件时是否可以依赖它们。测试故障转移的执行方式与计划的故障转移类似,不同之处在于测试模式下所做的所有更改都会立即恢复,以免对主环境造成干扰。此外,可以测试工作流程在灾难恢复事件中是否运行得足够快。如果作业完成时间超过设定时间,则测试被视为失败。测试/运行报告通过电子邮件发送,您可以检查该报告以识别灾难恢复计划中的缺陷并解决它们。当生产站点发生灾难并且无法访问源虚拟机时,会立即执行要求操作简单,即可将工作负载从主站点移动到灾难恢复站点。因此,尽管可能会丢失一些数据,但可以保证最短的停机时间。 重新保护灾难恢复站点的虚拟机运行故障转移后,您应该确保在灾难恢复站点上运行的虚拟机副本受到保护。VM副本也可能被损坏,如果没有其他副本,就不可能立即恢复它们。要求备份和复制可确保虚拟基础架构在灾难恢复事件后得到重新保护。需将灾难恢复站点上运行的虚拟机复制到另一个位置即可。因此,如果发生任何意外情况,可以轻松故障转移到新的虚拟机副本。可以将 SR 工作流程配置为在故障转移完成后立即自动启动在灾难恢复站点上运行的虚拟机的复制,从而保证高水平的保护。灾难恢复中的故障恢复仅当 SR 工作流中发生故障转移后才能执行故障恢复。一段时间后,当主站点备份并运行时,您可以在原始源虚拟机上恢复运行操作。为此,可以从已替换原始VM的VM副本故障恢复到此VM。如果虚拟机工作负载无法传输回主生产站点(例如,因为无法恢复),则可以将它们传输到您选择的任何其他新位置,以获得比灾难恢复站点更长期的解决方案。故障恢复可以在生产模式或测试模式下运行。 旨在确定SR作业是否可以成功运行,并且在实际故障恢复过程中不会出现任何问题。在这种情况下,从虚拟机副本到源虚拟机的增量或完整复制仅执行一次,这足以用于测试目的。确保IP地址和网络设置正确。源虚拟机和虚拟机副本同步以避免数据丢失,然后源虚拟机上电。请注意,测试完成后,故障恢复过程中对虚拟机所做的所有更改都将被丢弃,并且虚拟环境将恢复到故障恢复前的状态。在测试模式下,站点恢复作业可以按需或按计划运行。当希望在DR故障转移后恢复生产环境时,会执行生产模式下的故障回复。在生产模式下,只能按需执行站点恢复作业。生产模式下的故障恢复基本上遵循与测试模式下的故障恢复相同的步骤。但是,从虚拟机副本到源虚拟机的复制会执行两次,以确保过程中数据零丢失。复制操作完成后,原始源虚拟机(位于生产站点)将打开电源,而灾难恢复站点的虚拟机副本将关闭。 了解故障转移和故障恢复背后的技术并将其集成到您的虚拟机灾难恢复计划中可以保护虚拟环境免受任何意外事件的影响。故障转移可确保关键任务数据的安全,并将所有工作负载快速转移到灾难恢复站点。故障恢复允许只需单击几下即可从灾难恢复站点切换回生产站点。这些操作共同帮助您确保最大限度地减少数据丢失并减少停机时间。
|