【原】大数据治理系列：4 大数据架构形成的历史渊源（续）

数据治理精英馆 2021-12-24

展开全文

上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式，要不断创新数据架构。下图提供了一种体系架构方法，该方法使用新的数据源扩展现有系统，以支持组织所需的新信息需求。这种信息架构方法有三个目标:

1. 结合来自整个组织的最佳信息，供操作和分析系统使用。

2. 通过分析以前未利用的信息源，用相关的事实和事件触发器增加合并信息。

3.更容易地定位信息，并将其交付到业务最需要的地方。

下面是该架构中编号功能的描述:

򐂰后台应用程序(区域1)

后台应用程序运行并处理业务事务。这些系统包括订单处理、记账、市场营销、产品开发和销售类型的系统。通常，它们使用自己的数据独立地进行操作，但是它们可以与分析源中的操作系统交换信息。

򐂰新数据源(区域2)

新数据源是提供信息以补充后台应用程序生成的信息的系统。这些资源可能来自第三方，也可能是内部资源，例如日志、电子邮件和其他基于文本的资源。

򐂰数据采集(区域3)

数据采集收集来自后台应用程序的原始信息，以及用于验证、关联、清理和转换的新数据源。

򐂰分析源(区域4)

分析源为不同类型的分析处理提供信息:

-有些分析处理发生在托管分析源的系统内部。

-当数据在分析源之间移动时，一些分析处理发生在供应引擎中。

-一些分析处理发生在信息交互系统。新数据环境中的分析源包括共享的操作系统，如主数据中心、引用数据中心、活动数据中心和内容管理中心，以及数据仓库、MapReduce (Hadoop)、文件、数据库和数据集市等系统，这些系统承载着从许多来源获得的历史信息。

򐂰数据访问(区域5)

数据访问使数据交互解决方案能够定位和使用信息，而不需要确切地了解数据的物理存储和维护位置。此功能称为数据虚拟化的方法的一部分，是新数据处理领域的关键补充

򐂰数据交互(区域6)

数据交互解决方案包括系统的参与和先进的分析能力。他们主要使用来自分析来源的数据。数据交互解决方案可以生成一些反馈到分析源的数据。

򐂰事件检测和处理(区域7)

当在应用程序、分析源和数据交互解决方案中检测到重要事件时，事件检测和操作将触发业务流程和其他活动。这是新数据处理领域的另一个重要补充。

򐂰数据治理、风险和合规(区域8)

数据治理、风险和遵从性提供了确保数据在其生命周期中得到适当管理的能力，并提供了与数据的敏感性和使用相一致的质量和保护级别。

򐂰安全及业务连续性(区域9)

安全和业务连续性管理确保所有系统都具有与其对业务的重要性相适应的安全性和可用性。

新数据架构的变化表明，架构正在发生一些变化。如果进一步深入到包含中心区域(信息摄取和分析源)的区域，就会看到更多关于此演化的细节，如下图所示。

对于这些变化如下所述:

򐂰着陆区区域(区域1)

着陆区域管理从应用程序和新源接收的原始数据。对该数据执行的验证和重新格式化非常少。

򐂰共享数据分析区域(区域2)

共享数据分析区包含用于报告和分析的数据。

򐂰深度数据区域(区域3)

深度数据区域包含详细的信息，分析人员可以使用这些数据为业务创建新的洞察和总结。在分析处理完成后，这些数据将保留一段时间，以便在分析处理发现意外值时对原始事实进行详细的调查。

򐂰集成的数据仓库及集市区(区域4)

集成的数据仓库和集市区域包含合并和汇总的历史数据，这些数据是为报告和分析而管理的。

򐂰勘探区(区域5)

勘探区提供用于勘探分析的数据。探索性分析使用各种各样的原始数据和管理信息。

򐂰共享操作数据区(区域6)

共享操作数据区域具有包含由多个系统共享的统一操作信息的系统。此区域包括主数据、内容、引用数据和活动数据管理等。

򐂰数据交付区(区域7)

数据交付区域包含准备供数据局交互解决方案使用的信息。数据交付区域通常包含定期刷新的只读数据，以支持使用它的系统的需要。它提供了一些在数据虚拟化中使用的权威信息源，其中原始的信息源不适合直接访问。

下图总结了每个信息区域的一些明显特征。

大数据架构与大数据应用场景相关。例如，大数据探索为组织带来了新的数据来源，通常是进入着陆区。在那里，可以对数据进行初步检查和检查，以确保数据不会违反信息治理策略，或者包含有害的代码，或者仅仅是无用的数据。在数据经过这个初始评估之后，数据可能会被移动到探测区域进行进一步的评估，例如针对业务假设的沙箱测试。被证明是持续使用的来源被作为生产过程的一部分带入信息供应链。根据它们的数据内容和使用，它们可能流入深层数据区域或共享操作数据区域，或者被聚合到集成的仓库和集市区域。

要将数据移入和通过这些信息区域，还必须考虑将支持这些区域的系统作为新数据架构的一部分。在某些情况下，这些系统明显地落在一个区域内，但在其他情况下，这些系统及其功能跨越多个区域，如下图所示。