“数据产品”的概念最初是作为数据网格架构和运营模型的核心组件引入的。数据网格引入了以下4个原则: 分散的、面向领域的数据所有权 数据即产品 自助服务平台 联合数据治理 第二个原则表明,要使分布式数据平台取得成功,领域数据团队必须将产品思维应用于他们交付的数据集——将他们的数据资产视为他们的产品,并将组织的其他数据消费者视为他们的客户。 数据产品还与集中式数据管理架构相关,例如DataFabric,其中数据产品由中央数据团队创建、管理和调整,以供全公司的授权数据消费者使用。 数据产品的业务需求如今,由于数量惊人的数字服务和产品以及无处不在的互联网连接,数据以前所未有的速度产生。同时,数据是公司最重要的资产,对业务成功至关重要。 获得客户的可能性提高23倍 盈利的可能性提高19倍。 尽管世界上90%的数据是在过去2年内生成的,但企业数据仍然在数据孤岛中进行管理,从这些系统中释放数据价值是实现数据驱动成果的最大障碍。这是因为企业数据是: 分散在数百个系统中 受制于供应商拥有的应用程序,这些应用程序缺乏用于数据访问的API集 锁定在内部遗留系统中,对底层数据模型知之甚少或一无所知 以多种技术和格式可变结构化或非结构化 不合规,包含敏感的个人信息,必须匿名以遵守法规(GDPR、CPRA、LGPD等) 最终结果:超过80%的企业数据仍然处于“黑暗中”,即无法访问和利用。这些暗数据不会推动业务决策,也不会用于改善客户体验或运营效率。它正在成为公司的负担。 什么是数据产品 数据产品是一种可重复使用的数据资产,旨在为特定目的提供可信的数据集。它集成来自相关源系统的数据,处理数据,确保其合规,并使任何拥有正确凭据的人都能立即访问它。 数据产品使数据消费者免受数据源潜在复杂性的影响,将数据集与其系统分离,使其作为资产可被发现和访问。 一个数据产品一般对应一个或多个业务实体(客户、供应商、设备、订单等),由元数据和数据集实例组成: 数据产品元数据静态元数据,包括用于捕获数据产品数据集的表和字段 数据连接器,用于从源系统摄取所需的数据集并将其交付给数据消费者(通过Kafka、JDBC、CDC、数据服务、ETL、消息传递或虚拟化) 同步规则,定义数据产品何时以及如何将其数据集与其源同步 在交付原始数据集之前处理、屏蔽和丰富原始数据集的业务逻辑 数据治理政策,以确保数据集的质量和隐私根据内部和外部法规得到执行 活动元数据日志,用于捕获数据产品性能和使用统计信息 访问控制,包括身份验证和凭证验证 数据产品数据集作为一个单元进行管理,简化数据处理和访问 永远新鲜、干净、合规——整合、净化、掩饰和丰富 存储的、缓存的或虚拟化的 自动审核,记录对数据集的每次访问和更改 任何授权的数据消费者都可以访问 构建、版本控制、测试、部署和监控数据产品,以确保它持续为数据消费者服务。 7个数据产品用例示例数据产品旨在通过运营和分析工作推动特定的业务成果。以下是数据产品用例的7个示例: 1.在客户服务互动之前实时预测客户流失的倾向 2.将连锁店的库存数据通过管道传输到云数据仓库以进行BI分析 3.在启动新版本的财务管理软件系统之前,使用数据屏蔽工具准备屏蔽测试数据集,并将其与CI/CD管道集成 4.在AI/ML分析之前标记敏感的客户数据 5.向CRM应用程序提供整合的、实时的、全面的客户数据集,包括客户交易、交互和主数据。 6.向高风险地区的HMO患者发布有关COVID-19传播的最新消息 7.将遗留应用程序的数据安全快速地迁移到新的云计算环境中,同时确保业务连续性 虽然数据产品通常与分析工作相关联,但它们对公司的运营工作至关重要。 运营数据产品运营数据产品可提供任何业务实体(例如客户、供应商或订单)或任何相关的整体、实时和可信数据集。对业务很重要。可操作的数据产品在源和目标之间双向移动数据,而且只需几分之一秒。并且它可以有选择地存储数据,以在必要时充当操作数据存储。 运营数据产品之所以如此特别,是因为它的数据集始终:
在运营数据产品的数据标记化用例中,使业务领域能够构建、发布和维护数据产品。全公司的授权数据消费者可以使用平台的数据产品目录自动发现数据资产。 在此实施中,每个数据产品都在其自己的数据湖中管理和保存每个客户的数据集。微型数据库是运营工作的基础,因为它们始终:
运营数据产品使企业变得更加:
数据产品生命周期数据驱动的企业有一个共同点:他们构建数据产品,而不是一次性的数据项目。数据产品是专注于业务成果的可重用资产。 1.定义 数据产品由其业务目标、治理约束(安全和隐私)和数据资产清单定义。它的设计取决于如何将数据产品化,以便通过服务进行消费。 2.开发 数据产品是通过定位、收集和集成源数据,然后根据需要进行处理来设计的。创建数据服务是为了向消费应用程序提供访问权限,而指定数据管道是为了准备数据并将其交付给授权的分析数据消费者。数据产品的版本和设计符合性能SLA。 3.测试 数据产品只有在生产中运行后才能增加价值。但是,在此之前,必须对它们进行测试,以确保它们提供的数据集按预期运行,并且是新鲜的、经过清理的、完整的、合规的,并为大规模消费做好了准备。 4.部署 部署、监控(使用情况、性能和可靠性)、维护和支持数据产品,以快速解决可能出现的任何问题。 数据产品经理与软件产品经理 为什么循环? 数据项目与数据产品不同传统上,大多数公司在数据方面都是项目驱动的。例如,如果业务领域需要特定数据集来满足特定需求,它通常会向中央数据工程团队提出请求。该请求表示识别、收集、准备相关数据集并将其交付给业务领域的项目。每当组织中的任何领域出现新用例时,都会遵循相同的模式。这种“将数据作为一个项目”的方法有一些主要缺点,包括交付时间慢、缺乏重用、僵化以及交付错误和/或不完整数据的风险。 与更简单、更敏捷的产品驱动的数据方法相比,项目驱动的数据方法带来更大的复杂性和最小的重用。 另一方面,产品驱动的方法会匹配整个企业的数据需求。数据产品可以重复使用以支持任意数量的用例,服务于任意数量的领域。 数据产品管理优势随着时间的推移,数据产品会提供比数据项目更好的投资回报率和每次使用成本。尽管有一些前期成本,但它们会迅速发展以支持多种结果,解决新兴的用例——重点始终放在用例适应上。
对于企业来说,数据产品是:
如何开发数据产品部署合适的平台K2view提供了一个数据产品平台来设计、测试、部署和监控数据产品,以服务于各种各样的要求。该平台的DataProductStudio使数据团队能够快速定义和维护数据产品的元数据,包括数据模式、连接器、同步策略、数据转换、治理等。
任命数据产品经理数据产品经理需要在数据、分析、企业应用程序、业务分析和DataOps领域拥有广泛的技能。他们最终负责整个数据产品生命周期,他们:
与软件产品经理定义用户需求、确定优先级并与研发部门合作以确保交付的方式相同,数据产品经理收集数据消费者的需求,并与数据工程师和数据科学家协作以实现这些需求。 追求灵活性为了最大程度地提高灵活性,企业应选择可在本地、云端或混合环境中部署的平台,并支持所有现代数据架构。 DataFabric架构是一种模块化的数据管理框架,它与您现有的数据和分析工具相集成。它假设数据产品由中央数据和分析组织定义,并根据对活动元数据的自动分析随着时间的推移进行调整。 数据网格架构将数据策略转移到联合数据网络。它为业务领域提供了自主权和工具来创建满足其需求的数据产品,并创建了一个通用框架来实时构建和扩展产品驱动的数据解决方案。 数据网格与数据编织各有优缺点,但两种架构都将数据产品作为基本构造。 综述 数据产品是一种新兴的数据架构,被领先的数据驱动组织所采用。它们的价值源于对可信数据的快速可发现性访问、缩短获得洞察力的时间以及推动明智、及时的决策制定。 数据产品为运营和分析工作提供动力,并且可以部署在数据网格或数据编织架构中 - 在本地、云端或混合环境中。 数据团队应利用一个数据产品平台来管理数据产品的整个生命周期,在企业范围内部署数据产品,并具有支持多种数据管理架构和运营模型的灵活性。 |
|