数据通常被描述为新油,但与种植精致水果相比,确保数据质量更好。就像一棵果树一样,数据质量需要从源头上得到滋养。这就是为什么无法在数据仓库中解决数据质量问题的原因。 数据科学家大部分时间都在清理在这个关键阶段被忽视的数据集,不仅浪费了宝贵的时间,而且还产生了另一个问题。 当稍后清理数据时,会做出许多可能扭曲结果的假设。然而,数据科学家别无选择,只能做出这些假设。这就是为什么数据治理对提高数据质量非常重要。 谈到质量,数据不像油,而是像更水果,质量需要在源头和运输过程中得到培养。数据质量无法在数据仓库中修复。 独立用户的问题在于倾向于将精力集中在受影响最大的领域。例如,项目经理可能更关心 IT 资产管理流程中的低效率,而 CFO 可能会向董事会或股东提交报告,并发现缺少重要数据。 为什么数据质量会受到影响? 可以使用几个相互关联的参数来确定数据的质量。这些参数包括数据的一致性、及时性或相关性、准确性和完整性。 质量差的数据有两个关键原因。第一个与源系统有关,第二个发生在分析阶段。 源系统当组织在没有适当控制或标准化流程的情况下收集数据时,可能会出现问题。这些问题发生在四个核心领域:
以国家代码的类比来更详细地解释其中一些问题。许多系统要求用户输入国家代码以完成注册文件、进行预订等。在某些情况下,用户需要手动输入这些代码,而不是从预先建立的列表中选择一个选项。 问题是,不能保证每个用户都会输入相同的信息。事实上,这几乎是不可能的。当要求人们独立键入此信息时,会无意中为同一个国家/地区创建许多代码,并且系统将充满相互冲突的数据点。 分析阶段由于多种原因,数据质量可能会在分析阶段受到影响。例如,字段可能被错误地映射,或者用户可能根据数据做出错误的假设。 这种缺乏连贯性和标准的缺失也会影响数字化转型。当公司合并时——糟糕的数据质量使这些合并变得困难。如果没有定义标准或常见问题,数据质量就会成为一个大问题。 当数据质量不完美时,它就会变得不可信,从而难以说服员工将其用于数据驱动的计划。 为什么需要独立的数据质量经理?正如文章开头提到的,数据质量是数据治理计划的核心成果。因此,数据治理团队、小组和部门的一个关键问题是提高数据的整体质量。但是有一个问题:协调。 如果与来自不同部门的不同人谈论数据质量,总会得到不同的回应。例如,如果询问 ETL 开发人员他们如何衡量数据质量,他们可能会依赖一组特定的参数或规则来确保他们输入的数据符合要求。 如果源头质量不好,他们就不太可能举报,甚至不会将其视为他们的担忧。或者,如果与处理 CRM 系统的人交谈,他们将关注数据的一致性,因为他们无法匹配系统中的冲突术语。简而言之,每个人都从不同的角度看待数据质量。 由于大多数数据质量问题是由于跨多个应用程序的集成和数据转换问题而发生的,因此拥有一个独立的数据质量经理或数据治理经理来负责提高整个组织的数据质量非常重要。 因为有很多相互矛盾的意见,需要一个独立的机构来调解和实施全公司范围内的数据质量改进工作,没有偏见,并且基于重要性等级。该主体可以是数据治理经理或组。 为了有效地解决数据质量问题,需要确定优先级。应根据业务影响、流行程度和数据质量问题的复杂性等参数对这些问题进行优先级排序。 数据质量改进生命周期每个人的个人数据质量问题对该个人都非常重要。但是,为了避免迷失在问题的海洋中,需要确定优先级。应根据业务影响、普遍性和数据质量问题的复杂性等参数对数据质量问题进行优先级排序。这能够有效地解决这些问题。 以下是用于提高数据质量的久经考验的策略:数据质量改进生命周期。 1. 定义第一步是定义数据质量标准。这些标准将成为努力实现的基准。此步骤能够设定目标并建立关于如何提高数据质量最终发展业务的愿景。 例如,每次捕获社会安全号码时,都应该捕获九位数字。或者,每次收集电子邮件地址时,请确保输入两次作为辅助确认步骤。 2.收集接下来,需要使用框架记录组织中的所有数据质量问题,以定位数据质量问题。有两种方法可以成功地做到这一点。首先是在公司内部创建一个数据素养计划。 一旦组织内建立了广泛的素养,就可以建立一个报告机制,用户可以去那里交流他们的数据质量问题。此步骤的唯一目标是从所有来源收集数据质量问题,以便数据治理组将列出必须解决的问题。 捕获数据质量问题时,必须记录以下信息:
一旦在组织内建立了广泛的数据素养,就可以建立一个报告机制,用户可以去那里交流他们的数据质量问题。 3. 优先下一部分是开发一种机制,帮助我们了解这些数据质量问题对业务的影响。这是数据治理经理需要做的最重要的任务。他们在评估中必须考虑以下几点:
此过程使治理团队能够有效地确定问题的优先级。这种优先排序过程通常会造成瓶颈,因为很难做出一致的决定。 以国家代码为例,不同的系统可能有不同的选择,要做出决定,需要有一个框架,而这个框架的核心是一个数据治理委员会。该委员会应由组织中所有不同业务部门的领导组成。 当数据治理经理提出问题时,需要将其提交给委员会进行评估。他们将根据包括成本/收益比和业务影响在内的许多因素来权衡问题。 当做出关键的数据质量决策时,需要对业务流程进行某种更改。实质上会导致额外的工作和支出,因此需要在跨部门、公正、委员会层面做出决定。 4.分析一旦确定了问题并确定了优先级,负责批准和解决问题的人员需要进行进一步的根本原因分析。这个过程涉及提出问题,例如每个问题的根源来自哪里。问题的真正原因是什么? 使用国家代码示例,需要确定这个无效字段是如何导致数据质量问题的。问题的根源是用户手动输入代码,还是因为公司购买数据而无法控制? 5. 改进解决数据质量问题有四种关键方法:
6.控制该过程的最后一步是编写一组数据质量规则。这将确保如果再次出现此问题,则会创建通知或票证来解决问题。 通过这样的通知,可以更轻松地快速处理问题,而不必咨询多个人并进行复杂的分析。 本文整理自国外安全网站, 仅为大家提供一种数据安全治理的参考。 |
|