分享

数据血缘的那些事儿

 weiwarm 2019-04-07

数据血缘(Data Lineage)通常是指管理数据生命周期中的数据流向和历史记录,包括数据源头信息,后期移动到那个目标数据库等。

数据血缘的用途较多

  1. 合规需求,这是监管部门的需求,为了监管合规,数据流动的各点和来源,都是重点需要监管的。

  2. 影响分析和质量问题分析,这个数据开发部们的核心需求,随着数据应用越来越多,数据的流动链越来越长,一个源头的核心业务的改动,下游各分析应用必须保持同步,没有影响分析,就会各个数据服务造成异常访问的情况。

  3. 数据安全和隐私这个是数据合规部门的需求,哪些数据是需要脱敏的,这个要保持全流通所有域的管控。

  4. 迁移项目,这个出现在特定老项目终止需要新项目接管的情况下,没有数据流动映射表,就会大量花时间去整理,也很难保证迁移的完整性和正确性。

  5. 自服务分析,数据分析团队为了确定数据可信程度,那么数据的来源是数据可信的重要依据。

数据血缘系统的构建和维护是一个较重的系统工程,我认为其是数据治理工作中的流沙之地,不小心会陷入这个坑之中,尤其是技术完美人格类型的负责人,这是因为数据血缘的工作需要考虑的因素很多。为了最大程度降低项目失败的风险,我们需要考虑数据血缘的服务用户对象,确定业务方面和技术方面的血缘优先,需要考虑到细节程度,覆盖率,变化频率,同时还要考虑人员流动,组织部门,技术架构等情况,制定最适合我们自己的策略。

数据血缘的收集方法

  1. 自动解析

    自动解析当前主要的收集方法,具体就是解析SQL语句,存储过程,ETL过程等文件。因为复杂代码和应用环境等原因,根据国际厂商的经验,自动解析可以覆盖到企业数据的70-95%,目前无法做到100%,因此患有技术洁癖的负责人容易犯下这个错误,即追求极高的覆盖率。

  2. 系统跟踪

    这个方法就是通过数据加工流动过程中,加工主体工具负责发送数据映射,这样做的极大好处是收集精准,及时,细粒度可支持,不过限制就是不是每个工具都可以集成。这种方法一般鉴于统一的加工平台,比如Informatica可以管理自己的全数据血缘周期。

  3. 机器学习方法

    这个方法是基于数据集之间的依赖关系,计算数据的相似度。这个方法的好处是对工具和业务没有依赖,缺点准确率需要人工确认,一般可以做到3-8的数据可以分析发现。

  4. 手工的收集

    在整个项目中,一般有5%是需要手工来做的。

目前的数据血缘大多是基于技术的梳理,一般服务技术人员的需求。随着数据服务走向前台,服务业务分析和CDO的业务数据血缘,目前已经有相关产品,通过数据的语义分析,将技术元数据映射到业务元数据上,将血缘以业务流程方式发布共享出来,辅助商务决策,这是未来的发展方向之一。

———— / END / ————

感谢阅读本文章,欢迎留下评论及个人见解!

原创文章作者

朱金宝  CTO

前ERwin总架构师,10年ERwin研发经验. 负责产品全生命周期的发布,丰富产品发布和架构设计经验,多个大数据建模专利所有者和技术文章作者

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多