【原】破局非结构数据备份与恢复难题，爱数如何驾驭数据洪流？

科技正能量 2020-11-04

展开全文

数据是21世纪的石油，但稍有不慎，数据也可能演化为颠覆企业的洪流。

时至今日，几乎没有人会否认数据如石油般的价值，但这建立在一定的前提之下。“甲之蜜糖，乙之砒霜”——使用得当，数据就是石油，使用失当，数据就是洪流。数据应用水平成为数字时代左右企业成功的胜负手。

据IDC预测，到2025年，全球数据圈将增至175ZB，届时中国将成为全球最大的数据圈，其中80~90%都是非结构化数据，潜藏着无法准确计算的价值。

相比石油本身，“数据石油”未免爆炸式增长得太快，石油形成的时间轴以百万年计，不可再生，我们有足够的时间慢慢开采。而数据每时每刻都在生成，很多数据边产生边流失，何谈开采。

让数据能够合适的沉淀、备份，在应用时又能快速的开采、恢复，这是数字化转型中各行各业面临的共性挑战，同样是爱数AnyBackup推出非结构化数据超可用方案的核心所在。

海量非结构数据管理的痼疾

与结构化数据相区分，非结构化数据具有内部结构，但又没有预定义的数据模型，不便用数据库二维逻辑表来表现，我们常见的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等，都是非结构化数据。

市场分析机构Igneous在2018年发布的《非结构化数据管理状况》显示，40%的组织至少拥有少于10亿个文件，60%的组织拥有超过10亿个文件，其中6%的组织拥有超过1500亿个文件，超过83PB，如今数据只会更多。

拥有“数据石油”最多的企业，也面临着最大的难题，怎么管理、备份、恢复以及归档海量的非结构数据，过去企业只能尽力而为。

企业用于解决海量非结构数据备份和恢复的方案主要有三种：NDMP备份、NAS存储复制和对象存储，然而这三种方式各有缺憾：

●NDMP是为磁带介质而设计，为了防止增量备份过多影响恢复，所以NDMP必须做周期性全备，并不支持海量数据场景；

●NAS是目前非结构数据的主要存储方式，一般来说分布式存储至少需三个节点，建设成本较高，而且NAS存储各厂商之间并不互通，存在厂商锁定风险；

●对象存储是近年来的新趋势，不少企业也正在把数据从NAS向对象存储迁移，但对象存储实际上是生产存储或者归档存储，不是数据备份，存放企业最新的数据，没有历史时间点，无法解决企业备份和恢复的问题。

如上三种传统方式都不能很好地解决海量非结构化数据的备份和恢复的问题，根本原因是没有解决文件读写I/O的瓶颈。

无论哪种方式，都要对文件进行读写，在单文件不同大小的备份/恢复性能对比中，文件大小为10M或更小时，备份和恢复性能呈现一条加速向下的折线。显然，传统方式在面对海量的小文件时尤其手足无措。

AnyBackup Family 7

性能至上，超可用打底

爱数AnyBackup Family 7定位是全栈可用的灾备云，也是爱数针对海量非结构数据管理痼疾的集大成产品。

AnyBackup Family 7首先实现了备份快，在传统定时备份的基础上，还提供了CDM（副本数据管理）方式。

通过多线程多客户端技术，大幅提升了海量数据的并发读取效率，打破了单文件读写的性能瓶颈，通过永久增量技术，有效解决了NDMP周期性备份的问题，为客户节约了大量备份时间与带宽资源。此外，CDM技术可对原生数据副本复制，从而实现零合成时间，大大提升了备份的效率。

其次是恢复快，针对原机，爱数提供完整恢复、挂载恢复和细粒度恢复，CDM保存原生数据格式，可以实现分钟级的数据挂载并快速恢复，同时细粒度精准恢复可以单独恢复某个选定的文件，从而避免了因恢复单个文件，而需要完全恢复的尴尬场景。

最后，AnyBackup Family 7支持多种恢复方式，这和恢复快密不可分。为满足客户高阶需求，如查询分析和容灾站点，爱数提供了挂载恢复和自动恢复。自动恢复可以实现把生产端的变更自动更新到目标端，为开发测试和容灾站点提供了极大便利。

言而总之，多种技术的聚合，实现了AnyBackup Family 7独有的超可用技术，突破了文件读写的I/O性能瓶颈，从而实现了海量非结构数据的超可用。

以1小时备份1000万个小文件任务为例，采用传统方案，平均大小100KB的文件，1小时只能备份36万个，平均大小为1MB的文件，1PB的数据恢复完成需要约155天，而采用AnyBackup Family 7超可用方案，前者1小时可备份1000万文件，后者更是实现了分钟级可用。采用AnyBackup Family 7海量非结构化数据超可用方案，效率是传统方案的一万倍以上！

此外，爱数也实现了AnyShare场景下的高性能备份恢复，以及NAS场景下的海量非结构化数据超可用。

AnyShare是基于对象存储的海量非结构数据管理平台，在6.0版本之前，除了备份性能慢和恢复性能满之外，数据管理平台还存在应用一致性的问题，在AnyShare Family 7版本，这些问题都得到了很好的解决。

其中包含两个关键技术，其一是OSS 网关对象聚合技术，在生产过程中OSS网关直接将B级、KB级小文件聚合成MB级的大对象，确保对象存储里存的都是 MB 级大对象；其二是AnyBackup的编排调度服务，可以有效的去编排AnyShare三个组件之间备份的先后顺序，从而确保整个应用系统在备份恢复的时候，应用数据保证一致。

在NAS场景下，往往采用传统NDMP方式备份恢复，备份和恢复时间以天为单位，与此同时，数据以备份集存储在备份介质中，无法快速响应企业的数据查询等需求。

爱数同样以多线程备份、多客户端并发和永久增量备份的方式，解决了备份性能问题。多线程备份，100KB以上的小文件备份性能至少100MB/s以上；多客户端并发，100KB 以上的小文件备份性能至少270MB/s以上；永久增量备份，一次完备+N次增备。

通过挂载恢复和细粒度恢复，爱数实现了高效恢复。灾难发生时，挂载恢复通过 NFS 挂载恢复实现分钟级灾难恢复；海量数据中需要恢复部分损坏的数据，细粒度恢复无需将整个灾备集恢复，只要通过NFS挂载恢复挂载到客户端，直接进行文件查找恢复；当面对数据查询需求时，原生格式的备份副本数据通过 NFS 挂载至查询服务器，爱数可快速提供数据查询服务。

爱数自我进化

为了无法计算的数据价值

2020年4月，数据作为一种新型生产要素，首次被正式写入国务院文件中，与土地、劳动力、资本、技术等传统要素并列为要素之一。与此同时，新基建横空出世，数据是新基建的基础，更是重要的生产资料，数据备份与恢复是新基建不可缺失的重要组成部分。

数据作为生产要素登堂入室，爱数则先一步洞察风向，完成自我进化。

2006年成立的爱数，AnyBackup历经两次升级，2011年从备份市场进入灾备市场，2016年进入灾备数据服务市场，多年占据国产市场第一，2019年，爱数进一步完成了大数据基础设施战略的升级，AnyBackup成为这一战略的基底。

AnyBackup与其他产品结合，描绘出爱数清晰的大数据基础设施版图，灾备云、内容云、日志云、洞察云四大产品，帮助客户实现数据智能的目标。

IDC分析指出，数字化转型进程的加快让用户不仅寻求快速有效的数据备份方案，也更加看重解决方案的数据恢复能力，并且越来越多关注数据备份产品的易用性和面向云的分层能力。

目前业界推出的单点备份解决方案居多，产品的技术核心在于软件，无形中提高了数据备份和恢复的复杂性，也提高了用户的备份成本。备份一体机可以帮助提高数据备份与恢复方案的易用性，操作简单的同时也更加经济。传统硬件供应商需要继续投入以提高数据备份与恢复软件稳定性和易用性，提升软件核心竞争力; 而备份与恢复软件供应商需提升对硬件的理解，跳出简单集成的方式。

爱数踩在时代的鼓点，AnyBackup不仅仅有创新的超可用方案及技术，亦有十数年经验凝炼的专业服务，在数据备份与恢复市场先声夺人。

以湖南移动项目为例，从Anyshare 6.0升级到Anyshare Family 7，爱数结合AnyBackup Family 7为其打造了高性能备份恢复方案，带来数十倍性能提升。相比传统备份恢复技术，业务合规性管理也有了保证，办公文档、业务文档统一存储、保护、查询，内容流转记录与审计，安全合规。同时在异地容灾数据条件下，海量非结构化数据更加安全。

数据备份与恢复市场正迎来历史高点，数字经济驱动企业数据存储量成倍增长，企业不仅要求存储解决方案能够辅助其数字化转型进程，还要求这些解决方案可以使数据更加准确和满足合规。在传统市场之外，数字化转型和物联网、人工智能等新兴市场也在催生新解决方案，这些需求共同推动了数据备份和恢复市场的持续增长。

数据的未来万变不离其宗，各行业将探索出适合各自产业发展的备份与恢复需求，爱数正在引领这一实践。