分享

晓谈数据工程3-数据质量和治理

 数据治理精英馆 2024-04-07 发布于浙江

这是数据工程概念系列的 10 部分中的第 3 部分。在这一部分中,我们将讨论数据质量和治理。

内容:
1. 数据质量
2. 如何实施数据质量
3. 数据治理
4. 如何实施数据治理

什么是数据质量

数据质量是保证数据准确、完整、新鲜、可靠并适用于组织需要处理的业务需求。投资于数据质量将节省大量时间和精力,并防止出现任何错误情况。

不同类型的数据质量检查可以是
a.空值检查(例如,如果发现某个可选项目为空并且需要它进行分析)
b.数量检查(例如,如果发现行数远高于预期)
c.数据类型检查(例如,文件可能没有期望的正确列顺序)
d.范围检查(例如,交易价值超出预期)

e.类别检查(例如,可能有一个不存在的州缩写)

f.新鲜度检查(例如,几分钟前发生的交易未注册)

g.唯一性检查(例如,确保没有重复的行)

h.引用完整性检查(例如,确保外键与其他表中的主键匹配)

如何实现数据质量

  1. 通知系统
    需要有一个设计为在违反任何数据质量检查时发送通知的系统,例如 Slack 通知。

  2. 数据质量仪表板
    构建仪表板来显示数据质量检查结果,例如容量测试和范围检查。

  3. 数据质量运算符
    预构建的运算符自动隐含到数据处理管道中,以确保一切就位。

什么是数据治理

数据治理是指定义数据控制、访问和标准化策略的过程,以随着时间的推移提供安全性和有效性。指定数据管理员负责数据质量和这些策略的执行,并且数据沿袭用于在整个数据生命周期中跟踪源到目的地。

数据治理框架有 3 个主要组成部分:
1.政策
需要实施某些政策(例如数据安全法)以确保制定的规则,或者也可以制定组织级别的政策来实现一般合规性。

2.规则
数据保护 -敏感数据必须像 SSN 一样受到保护
治理 -应根据时间和内容授权访问

3.分类
业务类别——例如:不同业务领域的利用率衡量方式不同
数据类别 —例如:元数据、主数据、分析数据、业务数据、参考数据

如何实施数据治理

为了实施数据治理框架,需要构建以人为中心的方法,因为人们应该能够对他们管理的数据负责。治理框架应根据应用策略的进展进行迭代细化。

数据治理可以通过 3 种不同的模式来实现:集中式、分散式、混合式

为了实施数据治理策略,需要采取几个步骤:
1. 识别现有数据并确定优先级:
对数据进行分类并为现有数据创建元数据和数据目录

2. 准备和转换元数据
创建数据字典模板,并清理和转换组织各部门的数据形式。

3. 选择并构建治理模式
选择上述任何合适的模型,并开始实施数据的存储、维护和处置方式。

4. 建立政策分发流程
提供适当的培训,并让所有团队在制度、流程以及使用指南和限制方面达成共识。

5. 识别潜在风险
根据即将推出的安全策略保持数据最新,以安全地存储数据并限制对数据的访问。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多