分享

数据质量-您的测量有误

 新用户26922hFh 2022-01-10

  这是一个更好的方法

  数据质量-您的测量有误

  > By Olivier Le Moal

  我们的一位客户最近提出了这个问题:

  "我想为自己[数据团队]建立一个OKR,围绕数据可用性。 我想建立一个单一的KPI,以总结可用性,新鲜度和质量。

  最好的方法是什么?"

  数据质量-您的测量有误

  我不能告诉你这个要求带给我的喜悦。 作为一个痴迷于数据可用性的人-是的,您没看错:这些天,我不再是绵羊,而是梦想着空值和数据新鲜度-这是一个梦想成真。

  为什么这么重要?

  如果您正在使用数据,则说明您目前正在从事数据质量项目,或者只是将其打包。 这是不良数据的定律–总是有更多的数据。

  传统的衡量数据质量的方法通常会占用大量时间和资源,涵盖多个变量,从准确性(不费吹灰之力)和完整性,到有效性和及时性(在数据中,不会过时)。 但好消息是,有更好的方法来处理数据质量。

  数据停机时间(您的数据不完整,错误,丢失或不准确的时间段)对于任何努力以数据为导向的公司来说都是重要的衡量标准。 听起来有些陈词滥调,但确实如此-我们努力收集,跟踪和使用数据,但是通常我们不知道数据是否准确。 实际上,公司经常会拥有出色的数据管道,但数据却很糟糕。 那么,如果一天结束之后我们实际上无法使用数据,那么建立一个有价值的数据架构所需要付出的全部努力呢?

  通过测量数据停机时间,这个简单的公式将帮助您确定数据的可靠性,使您有信心使用或丢失数据。

  因此,您想要一个KPI吗?

  总体而言,数据停机时间是由以下因素引起的:

  · 数据事件数(N)-考虑到您依赖团队"外部"数据源,这个因素并不总是可以控制的,但肯定会导致数据正常运行。

  · 检测时间(TTD)-发生事件时,您会多快收到警报? 在极端情况下,如果您没有适当的检测方法,则可以数月之久来衡量该数量。 不良数据造成的无声错误可能会导致代价高昂的决策,并对您的公司和客户产生影响。

  · 解决时间(TTR)-在已知事件之后,您能够多快解决该事件?

  通过这种方法,数据事件是指数据产品(例如Looker报告)"不正确"的情况,这可能是由许多根本原因引起的,包括:

  · 所有/部分数据不够及时

  · 全部/部分数据丢失/重复

  · 某些字段缺失/不正确

  以下是一些非数据事件的示例:

  · 计划的架构更改,不会"破坏"任何下游数据

  · 由于有意更改数据系统(弃用)而停止更新的表

  综上所述,我建议针对数据停机的正确KPI为:

  数据停机时间=数据事件数x

  (检测时间+解决时间)

  (如果您想进一步提高此KPI,还可以按严重性对事件进行分类,并根据严重性对举重正常运行时间进行分类,但为简单起见,我们将其保存在以后的文章中。)

  结合自动化,高级检测和无缝解析的正确组合,您可以通过减少TTD和TTR来最大程度地减少数据停机时间。 甚至还有减少N的方法,我们将在以后的文章中讨论(破坏者:首先要获得正确的可见性以防止数据事件发生)。

  测量数据停机时间是了解数据质量的第一步,并从那里确保其可靠性。 花哨的算法和业务指标随处可见,这很容易使我们的衡量方法变得过于复杂。 有时,最简单的方法就是最好的方法。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多