分享

一文了解数据分层架构

 gfergfer 2023-09-21

  食品按照不同的加工程度分为:生食、预加工食品和成品等。数据作为数据系统的一种“原始食材”也可以根据加工程度分为:ODS,DW和ADS三个层级。

图片

食品和数仓对比示意图

  操作数据存储层(ODS,Operational Data Store):这里是数据系统存放业务系统数据的“隔离区”。业务数据按照原始格式存储到数据系统,ods层的数据是后续处理的数据来源。

  业务系统数据存储形式包括数据库、消息队列和日志等。根据采集频率又分为实时、准实时和按周期采集三大类型。

图片

数据采集类型表

  在采集的过程中,需要特别关注如何同步业务系统中更新的历史数据。数据记录的时间标识,除了记录业务时间还应包含系统的操作时间。以系统操作时间作为数据更新的时间依据,判断是否需要重新抽取数据到ODS。

  数据仓库层(DW,Data Warehouse):数据进行处理的“加工”层。在本层,数据又被细分为三小层,每层都为下一层数据加工提供支持。

  数据明细层DWD,Data Warehouse Details):业务数据与数据仓库的隔离层。主要对ODS层存储的数据进行数据转换和清洗的操作,确保数据符合规范。清洗范围包括:去除空值、数值超范围和删除脏数据等。经过数据清洗后,数据质量得到提升具有更好的数据一致性。

图片

DWD示意图

  数据中间层DWM,Data Warehouse Middle) :数据中间层打破关系数据库的范式要求,对数据进行轻度汇总。此层把业务系统拆散的表格重新进行合并。每个“新”表的数据字段更加“完整”,也简化了表与表之间的关系。表简化之后,与通用维度数据进行组合形成最简单的维度汇总表,这是数据进行的第一次分析处理。

图片

DWM示意图

  数据服务层(DWS,Data Warehouse Service):基于DWM上的基础数据,整合汇总成分析某一个主题域的服务数据层。主题域指一系列存在紧密关联关系的实体。按业务划分的主题,例如:流量、用户、订单等。同一主题域的数据与领域专有维度信息组合,合并成一张或者多张大表。这种大表就是通常提到的宽表,包含更多的领域数据分析指标。宽表数据为之后的报表呈现提供数据基础,不同的报表会在宽表中提取关键字段进行展示。

图片

DWS示意图

   数据应用层(ADS,Analytical Data Store):大数据平台适合大数据量的处理,但不适宜对外提供即席查询服务。DWS层的数据需要导入到ADS层的Mysql或ES等,对外提供联机服务。从技术角度看,数据从适合业务处理的系统导入到数据分析系统,最后又重新导入适合业务处理的系统。

  架构分层可以降低系统局部的复杂度,使系统中的关系更加清晰。数据架构分层,可以对每层数据进行更准确的定义和数据复用,不同的层级也可以采用最适合的技术。打开冰箱,观察一下食物的分类。现在你对数仓建设有什么新的想法?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多