分享

「三地五中心」虽然厉害,但是咱公司还是别考虑了

 快读书馆 2018-09-26

上周,蚂蚁金服副CTO胡喜做了一个实验,把支付宝两个机房的网线切断,会发生什么。


两名支付宝工程师在现场同时剪断了支付宝两个模拟机房的网线。系统显示,仅在26秒后,运行在上面的支付宝虚拟账户便恢复了正常运转。


原理就是蚂蚁金融的“三地五中心”容灾系统。可是“两地三中心”都没普及呢,谈“三地五中心”真的好吗?


1

什么是“三地五中心”


实,“三地五中心”就是在“两地三中心上”加了“一地”、“一中心”。但是这在BCP(业务连续性计划)上确实先进很多。


但是这再者又不尽相同。两地三中心的原理是本地主存储随时将信息同步到辅存储,保证这两个存储数据完全一致;再定期“异步复制”到远程容灾机房上。


如果主中心出现故障,迅速把业务切换至辅机房,并把数据从辅机房异步复制到容灾机房。


如果主辅中心同时不能运行业务,就需要容灾机房运行业务或恢复业务(根据实现方式选择)。


这里就暴露了两地三中心的缺点,如果主辅中心同时不能正在运行时,容灾机房需要恢复时间才能运行,而且会丢失数据。


*一种两地三中心案例


三地五中心刚好能弥补这个缺点。它是在第三个地点加上一对主辅中心,且这两对主辅中心之间是随时保持信息同步的,然后再定期异步复制到第五个中心——容灾机房。


当一个地域的主辅助机房都不能正常运营时,会迅速把业务转移到另一个地区的主辅机房,反应快,而且数据也不会丢失。


这就是文章开始说的实验,同时毁坏一个地区的主辅中心,能在26秒内恢复正常运转,而且不会丢失数据。


2

成本高昂


个地区的数据中心同时出现故障的概率可以忽略不计。这么好的容灾方案,为什么不取代两地三中心容灾呢?


最大的原因应该就是成本问题。任何一个灾备项目,目标、规模、风险、成本这几重因素总是紧密关联在一起的。


而成本是被故障可能造成的损失所决定的,成本预算一旦超过损失预估,肯定是不能通过的。


而数据中心的成本又非常高昂,可不简单地是硬件的成本。包括以下四个方面。


数据中心的成本

1

场地费用

包括灾备机房基础设施费用,灾备中心人员费用等。

2

设备费用

包括购买的灾备存储、交换机、路由器、协议转换器、主机等各种设备的费用。

3

传输网络费用

这一部分费用随着灾备技术路线的不同更是差距明显。

4

运维费用

这部分的费用包括向厂商购买的每年服务和应急的专业服务费用,还包括高级别的系统维护人员的费用。


三地五中心比两地三中心多的不仅仅是一个中心的费用,还有额外的高昂的传输网络费用。


两地三中心灾备中,远程的容灾中心是异步复制的,为什么不做成同步复制呢?那样就不会有数据丢失的情况了。原因只有一个字——贵。


*一种三地五中心案例


同步复制可以保证数据完全一致,但是对数据传输带宽和时延要求都很高,成本昂贵,一般只用于近程。


另外,技术路线的不同,导致的带宽也不同,可以相差达到40倍的带宽差异。


例如,采用不同的技术,也可能只需要每年支付20万的传输网络费用,也可能需要支付每年200万的网络费用,而实际效果却完全相同。


三地五中心灾备解决方案中两座城市的四个机房需要实时同步数据,既需要远程同步,又要好的技术支持。一年的带宽成本可能足够建一个小型的数据中心了。


有人说两地三中心的一大缺点是成本高,但是和三地五中心的成本比起来,只能算是小巫见大巫。

3

金融行业专属


2

013年8月16日,Google在全球范围内发生了五分钟的宕机——搜索服务、YouTube、Gmail全部崩溃。事后,有第三方数据显示,在这五分钟时间内,全球互联网流量雪崩了40%。


对于互联网巨头来说,三地五中心确实是值得投资的。但是这些企业实在太少了,一般的企业要不要上两地三中心都要好好计算计算。


但是对于另一个行业,三地五中心也是好的选择,那就是金融行业。


金融行业本来就“有钱”,而且担心系统故障,更担心数据丢失。如果几分钟的数据丢失,可能就会造成巨额的损失。投资三地五中心灾备是值得的。


再回到文章开头那个实验,蚂蚁金融的三地五中心是基于阿里金融云的,其实早在2015年就建成了。单看名字就知道什么企业会用到。


而且金融行业一直以来都是IT投资的大户,近年来灾备投资也逐年提升。

*2014年各行业IT投入


*2010-2015年金融行业灾备市场规模


但是,如果企业不属于金融行业,数据不需要那么及时的话,CIO还是要劝经营层不要考虑“几地几中心”了。


咱家数据金贵,建个数据中心投入也不小不是,还是先考虑下这几个方面。


灾备体系需要预先考虑的因素

1

是否是低带宽特征,如果是则需要考虑具有带宽优化的技术实现

2

是否是异构系统,如果是则需要考虑异构的灾备体系

3

成本。权衡和比较不同灾备实现的成本,这里会产生很大的差异

4

灾备系统是否对于生产系统产生很大的变动,有时候,这往往是致命的

5

灾难的防御范围。除了人们已知的各类自然灾害、设备故障外,是否需要防范人为的数据篡改或丢失,如果是,所采用的技术就需要更为全面、功能覆盖面更为广泛

6

工程实施过程。实施是否简单、维护过程是否简单往往决定了系统今后的维护、运营成本和对生产系统的影响


End


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多