一、数据仓库的快速演变 数据仓库不会消失。数据仓库将继续是一项重要的传统技术,组织将在未来很长一段时间内将其用于关键业务应用。随着向云的过渡,数据仓库有了新的变化,并提供了一些现代的、有吸引力的功能,包括自助服务和无服务器。随着云技术的崛起,数据湖成为了新事物。数据湖正在成为一种商品,它本身就是一种传统技术。它们在创新阶段的迅速崛起意味着两件事。 首先,组织将需要更简单、更容易管理、更经济有效的方法,使用尽可能多的数据源从他们的数据湖中提取有用的决策数据。其次,这些组织共同的希望是通过不把它们锁定在专有数据管理平台上的工具来实现上述功能。简而言之,2021年将开始看到工具的快速引入和发展,这些工具允许用户将他们的数据湖保存在一个地方,并在他们的控制下,同时提高性能和降低成本。 二、首席数据官的关键年 在过去的几年里,首席数据官以及他们所领导和影响的团队都从技术和战术的角度来看待他们的位置——主要作为企业的成本中心来运营,为未来打下基础。然而,随着数据与企业的发展越来越紧密地交织在一起,CDO必须将精力重新集中在战略和企业如何与数据互动以及如何从数据中获益的转变上,而不是在这个过程中所使用的技术。我预测,2021年将是首席数据官的决定性一年,我们将看到这个角色的形成,并真正确定他们是走成本中心还是利润中心的路线。 三、元数据就是大数据 随着2020年数字化转型计划的显著加速,大量结构化、半结构化和非结构化数据分散在整个企业。Gartner预测,到2022年,在数据治理方面投资的企业中,只有20%的企业能够成功扩大治理规模。为了实现完整的数据治理,企业正在转向元数据,以提供更深入的上下文,了解数据来自何处以及数据流向何处。随着数据的持续增长和治理需求的增加,组织意识到跟踪和自动化元数据管理的能力是一个新的日益增长的挑战。在接下来的一年里,我预计随着元数据量的持续增长,企业和供应商都将寻找新的、可扩展的方法来解决元数据挑战,并越来越多地依赖人工智能来解决这一切。 四、针对多环境的数据治理 企业将自己的所有数据直接存放在一个云服务提供商内的时代已经一去不复返了。现在,各组织都有了本地数据,并根据它们的特定需求与几家云提供商合作。这一现实引发了对数据治理方式的“反思”。企业必须确定其当前的数据治理将如何受到影响,需要调整哪些方面,如何监控云中的数据质量,以及如何管理数据的进出(以及随之而来的巨额费用)。 五、数据目录和统一数据访问的进一步发展 企业正在寻求超越数据目录的智能系统,索引所有资产,并提供关于资产内容、关系和质量的深度分析。组织将改进过去的数据库连接,使数据连接到本地文件,云数据/文件,通过API,从数据流等等,但对终端用户来说都是一样的。 六、统一分析仓库 分布式分析数据库和可负担的可扩展存储正在合并成一个新的东西,叫做统一分析仓库或数据湖,这取决于应用视角。Data lake供应商正在争先添加ACID功能,提高SQL性能,添加治理、资源管理、安全、沿袭,所有这些数据仓库供应商在过去三、四十年里一直在完善的东西。在过去的十年中,Data lake软件一直在整合,而分析数据库也看到了它们的优势,并将其添加到现有的功能中:无限规模、支持广泛多样的数据类型、快速采集流数据、读时模式和机器学习能力。就像很多厂商在它们真正成为云之前就声称是一个统一的分析仓库一样,一些供应商把两种架构合并为一个复杂的混乱架构,他们会声称是一个统一的分析仓库,但每个厂商都在争着让它真正成为现实。我认为数据仓库供应商拥有无与伦比的领先优势,因为构建一个像Vertica这样可靠的分析数据库可能需要10年或更长时间。 七、AI / ML将在执行越来越多的“隐形”任务中发挥更大的作用 在集成领域,迄今为止,人工智能主要围绕学习和协助简化复杂的集成任务(例如,数据映射)。到2021年,机器学习将继续提升,以至于AI会通过实际完成如今由人类完成的任务,并通过建议进行“人工辅助”,从而减少AI的“辅助”而更多的“增强”。随着AI越来越多地执行这些任务,这些任务将变得无形,并且“只为您完成”,使我们向自动集成迈进了一步。 八、自动化数据集成比以往任何时候都更为重要 越来越多地,我们看到公司需要处理的数据量和来源有了巨大的增长。现在,我们以兆字节为单位进行测量,这大约是一百万PB,并且没有回头路可走了。数据只会在您的组织中不断增长。解决这一问题的唯一方法是通过自动化。 在2021年,我们将继续看到采用有助于改善数据分析师工作流程的新技术和产品集成。随着数据量的增加,也需要能够支持更复杂的数据操作的工具。DBT是一个很好的例子,它是流行的开源分析工程工具,我认为它将在2021年及以后的现代数据软件中扮演越来越重要的角色。 九、随着5G等新技术的普及,将产生更多实时数据,这些数据需要数据完整性以应对动态应用和数据智能 我们将继续看到企业在确保数据质量和准确性方面加倍努力。在来年,可能了解准确性和一致性重要性的组织将不断增加,以强调上下文的关键维度(例如位置或人口统计特征)以形成差异化竞争。它会带给人们更大的信心,使人们有必要承担必要的和经过计算的风险,以创造新的可能性。我们已经看到数据完整性已成为各个行业的一项主要计划,对于行动迟缓的企业而言,通过有效利用数据制定合理的战略将是2021年建立竞争优势的优先事项。 十、数据孤岛继续存在 在行业中,我们经常谈论打破数据孤岛,但我们应该承认,有些孤岛永远存在。在大型组织中,您将始终拥有具有自己的工具或数据库的本地部门或区域,并且这些将继续存在。如果您拥有数据主权,则您组织中的本地组织将继续成为孤岛。这就是为什么最好的方法是着眼于如何更好地理解所拥有的数据。数据智能平台可以充当您的索引和地图,通过提供360度的数据资产视图,向您展示您拥有的孤岛以及它们之间的连接方式。 十一、远程工作将加速数据治理和合规性项目 由于COVID-19大流行的远程工作要求,以惊人的速度推动的数字化转型将迫使企业在2021年加速数据治理和合规性项目。借助如此众多的远程工作者,数据无疑会在外部传输和共享物理边界。这会形成隐私和安全漏洞,这对希望窃取个人身份信息的不良行为者提供了机会。组织必须为新的常态做好准备,并为被迫保护数据而又不影响远程团队生产力的IT安全团队承受无尽的负担。 十二、“主动”数据治理将规范化 GDPR在2016年为许多组织带来了一种“传统”的治理方法。四年后,很明显,这些努力在很大程度上失败了。同时,出现了一种“主动”方法,通过活动和策略优先管理工作,并在实际使用数据的情况下实施策略。这种积极的方法最初是创新者和早期采用者尝试的,其新颖性和逻辑性吸引了他们,并取得了优异的成绩。这种成功吸引了越来越保守的机构,到2021年,我们将看到钟形曲线的强劲部分采用了这种经过日益审查和流行的方法。 十三、将有更多的企业宣布数据湖和数据仓库之间的竞争,并专注于推动结果和现代化 数据仓库可以继续支持报告和商业智能,而现代云数据湖则比以往任何时候都更加灵活,可扩展且廉价地支持所有分析,AI和ML支持-因此企业可以快速进行转型。随着DIY方法被SaaS平台取代,云迁移和相关的云数据湖实施将变得明显更快,更容易。这样的解决方案将把生产云数据湖的部署时间从几个月缩短到几分钟,同时控制成本并提供现代分析计划所需的连续操作,安全性和合规性,AI和ML支持以及自助服务访问。这意味着过去需要9到12个月以上的迁移才能在很短的时间内完成。 |
|