分享

数据应该在数据仓库中保留多长时间:“无限期”保留的正反两面

 饼干8181 2015-11-12


作者:Informatica数据安全及归档产品市场副总裁兼市场开发副总裁Julie Lockner


在美国,每个人都知道你需要保留最近七年的财务数据以备税务局审核。但是你的业务数据或者个人数据是否存在这么一个硬性的保留期限呢?随着数据量的不断增加,这个问题变得越来越难以回答,同时也为数据管理带来了更多挑战


数据掌控在业务高管、企业负责人以及IT技术投资者的手中,他们有足够的理由希望存储更多的数据。大数据带来了无以伦比的新机会,从数据中发现新亮点这一理由足以诱惑人们增加存储的数据量。但是,有些人也认为,大量存储的数据已经不仅是简单的经济成本问题,它们也带来了风险成本。我们是否需要强制规定以保留有助于人道主义服务的数据?如果答案是肯定的,那么我们需要保留多长时间?或者,我们是否应该在数据已经失去价值的情况下,将其销毁以降低泄露的风险?我们又如何能够得知数据已经得到了妥善保管,以阻止入侵者接触到它们


数据长期存储的经济学

现在,我们来考虑一下长期存储大量数据的经济学问题。如果你搜索关键字“硬盘存储的高昂费用”,就会找到如下几个数据,2009年在内部系统中每GB每个月的存储成本是25美元,相当于25000美元/TB,而将10TB数据存储五年的总体拥有成本将近一亿美元。但是在今天,在亚马逊上存储10TB数据的成本则是每月300美元


现在我们用杰文斯悖论来整体分析云存储或者云计算。存储成本的降低会提升使用量。低成本的分布计算资源加上低成本、供应量充足的硬盘及类似Hadoop的开源软件,2020年,预计大数据存储市场的规模将达到500亿美元


信息生命周期管理

还有人曾经记得缩写为ILM的信息生命周期管理这个名词吗?2004年,主要的存储供应商都曾经在推动ILM战略,以帮助存储管理员通过存储层级方式降低存储的整体成本。关键数据可以用高可用性的冗余技术存储,而比较陈旧的数据则以比较低的服务等级进行低成本存储。按照数据的价值规划在基础架构方面的投入,从而降低总体成本


实施ILM需要部署一套数据分类系统,以根据元数据及业务规范来标记数据集,并且随着时间的推移随时对变化进行监控。业务词汇及元数据管理工具同数据集成及转移技术结合在一起,帮助数据从业务处理数据库转移至数据仓库、分析数据库以及类似Hadoop的开源平台


并不是所有人都需要从历史中获取经验,然而历史数据给大数据、数据仓库以及数据保存这一主题带来了一个重要的背景。Cloudera的创始人——Amr Awadallah在他关于大数据最新应用案例的博客中,并没有将关注点聚集在成本上,而是说明了如何利用Hadoop来实现活动归档。他的不同观点是:并不是所有的数据都在分析数据库中占据重要位置。细节、琐碎的数据可以以低成本的方式存储在Hadoop


关于无限期保存数据的争论

数据分析师现在能够以几乎零成本的方式存储海量的历史细节数据,但是,历史数据的数量,会减少未来数据的存储空间。Salesforce.comCEO Marc Benioff 2014 Dreamforce上说:“世界上90%的数据都是在过去两年内创建的。”你可以想象未来的数据量会有多可怕


历史数据在探索行为模式的时候能够提供背景。在检验猜想的时候,完备的数据对于检测预测模型具有相当大的价值。存储不再是一个考虑成本。如果你观察Hadoop以及它的一些客户用例DataKind(一个致力于在善意的数据科学家和寻求公益活动帮助的团队之间建立联系的非营利组织)如何利用数据来进行人道主义服务的话,主张永久保留数据的呼声会非常高。受益于数据,我们以商业及医学的方式改变着我们的世界


关于强制限制保存数据的争论

希望通过分析获得发现的民主化数据拥护者们希望能够将数据永久保存,这是故事的另一面。随着数据容量的增加,数据盗窃及数字犯罪的数量及严重性也在不断增加。首席数据官希望能够自由接触数据、首席信息安全官希望能够保护数据不受操作失误的威胁。安全人员及记录保存管理人员正是出于这一原因,对当前的数据及记录保存日程进行优缺点分析


Healthcare.gov作为美国联邦健康保险交换系统的核心,管理着政府数据仓库,其中保存着数以百万计的个人信息。目前这个被称为MIDAS的系统以无限期的方式保存着所有数据。合众社的一篇文章曾经提到,数据仓库中存储的数据类型引起了越来越大的担忧,这些信息可以被用来进行身份窃取、保险欺诈以及税务欺诈


今年,白宫任命了历史上的第一位首席数据分析师——DJ Patel,他的职责之一就是负责政府的“精准医学计划”。超过100万美国人将被征求意见:是否以自愿的方式来提供自己的医疗数据。预测模型将使用个人的状况辅以基因架构来决定更好、更精准、更个人化的治疗方法。当人们自愿提供数据的时候,他们应该知道这些数据会在研究数据库中保留多长时间,或者至少能够确保在分析的时候,某些数据能够去除个人化的信息


妥协

明显,关于是否应该无限期保存数据的争论有两个对立面。最后将具体到保留的数据类型、保留数据的目的与用途,以及数据泄露造成的风险


随着数据源以及数据量的增加,保留数据踪迹成为了一项非常艰巨的工作:特别是数据在云环境中转入转出而无需IT人员介入,或者不被安全团队监督。在最近由美国独立研究机构Ponemon Institute发布由Informatica赞助的一份研究报告中提到,超过50%的受访者认为最让安全人员胆战心惊的是“不知道敏感及保密数据究竟存储在什么地方”。如果你不知道你要保护的东西在哪里,那么保护就成了一个不可能的任务


最佳实践做出了妥协,采取了类似信息生命周期管理的哲学。其根本在于将管治措施同数据分类规则相结合。一旦了解了哪些是敏感数据或者保密数据,以及它们的存储位置,你就可以在数据安全技术方面进行相应的投入。当数据逐渐变得陈旧的时候,就可以在分析环境中进行数据去标记化或者称为数据脱敏,从而降低甚至消除风险


如果保存数据是为了用于未来的需求,你拥有的另外一个选择是利用归档技术将数据复活。采用将敏感及管制信息迁移到一个集中化管理、高度压缩并且安全的数据存储环境中,配合良好的接触控制,可以降低潜在的风险


我们大家都同意数据容量会不断增加,数据源的数量同样会不断增加。回头看看我们10年前存储的数据,它会启发你今后10年将是怎样的状况。将数据分类及保存管理引入企业数据架构中,重新捡起ILM这一概念,这将提升企业在未来的表现,并且实现提高收益与降低风险这一目标。也许随着时间的逐渐推移,我们能够将ILM无缝融入到系统中,使之成为数据管理平台的一部分


美国国税局要求的7年周期也许对于保存个人税务数据是足够的,但是随着数据容量以指数级增长,存储成本及安全成本都在增加,未来IT也许需要保存企业数据70


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多