在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。 其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。 Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。 与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。 Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。
4. 架构定位 Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。 其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:
连接数据,而非集中数据
Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。 也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。
自助服务,而非专家服务
数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。 Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。
主动智能,而非被动人工
传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。 Gartner 将 Data Fabric 比喻成数据管理的“自动驾驶”:驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。
万物链接,而非简单替代
Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。 Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。 Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。
5. 关联对比
作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。 1)Data Mesh Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。 其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。
API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。
是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等。传统的数据集成专注于复制、移动数据,如ETL加工、数据同步等。 数据虚拟化则是一种经济高效的现代数据集成技术,直接连接源数据,不依赖复杂和繁琐的ETL系统,减少了多次复制、移动和存储数据的时间和成本,同时也减少了产生数据错误的概率。另外,数据虚拟化不仅可以做数据层面的集成,也包括接口层面的集成。因此,数据虚拟化是一种更稳定的技术和增长最快的数据集成方式。 数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。 Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。 3)数据湖 Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。 Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。 4)知识图谱 知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。 知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。 5)数据中台 数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。 伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。 02 Data Fabric 价值及能力 1. 产品价值 Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:
更快地适应业务
Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。
更好的洞察力
Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。
更有效地消除孤岛
Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。
更低的成本和实施风险
Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。 另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。
更高效的业务协作
Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。
更安全的业务
Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露,并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。 2. 能力要求 针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。
Data Fabric的数据准备和交付是在数据pipline中进行数据的转化和集成。数据集成对于Data Fabric至关重要, 通过批处理、数据复制、数据同步、流数据集成以及数据虚拟化(在数据查询时完成数据转化)等方式进行跨源、跨环境(如多云、混合云、供应商)的数据集成,将数据准备折叠到数据交付层(将准备好的数据进行交付)。
数据编排和DataOps
数据编排是用于驱动数据准备工作流的流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps是将类似于DevOps的持续集成、持续部署的原则应用于数据pipeline,更加敏捷和严格的进行数据交付。 基于AI的自动化数据编排是Data Fabric架构设计以及落地的关键,通过组合和重用集成组件,快速支持当下以及未来需求。存储和计算分离是未来数据管理的趋势,Data Fabric通过自动化来管理和编排跨组织、跨平台的的数据pipeline,包括数据流协调、维护、操作、性能优化、集成负载调度等,大幅提高数据管理团队的工作效率。 03 Data Fabric 厂商实践 Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。 1. IBM - Cloud Park for Data IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。
AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不同数据环境数据资产的 Dynamic 的实时目录。
AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动化。
AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动化提供了技术和智能化的保障。
主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。 数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。 其具备如下能力:快速发现全链路元数据、实时、精细、准确的全链路血缘、采集数据生态的所有元数据、以知识图谱方式组织元数据、实时、高效、易扩展的数据画像打标等。
Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验:语义化数据搜索、全景数据画像、可视化血缘分析、全域数据探索等。
数据虚拟化
数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。 其具备如下能力:高性能联邦查询、全场景智能加速、全链路数据编排、零运维数据更新、标准化协议接入、精细化安全管控等。