分享

数据质量是什么,数据质量分析怎么做?

 blackhappy 2019-11-15

一、数据质量是什么

国际数据管理协会的《数据管理知识手册》中规定:数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。

具体可以从以下几个方面来定义数据质量:

从用户层级定义数据质量:即满足特定用户预期需要的程度

从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量

从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量

从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量

数据质量是什么,数据质量分析怎么做?

二、数据质量评估评估步骤如下

确定需要做数据质量监控的数据指标项,通常会对数据运营和相关管理报告至关重要的数据项。

评估需要使用的数据质量维度及其权重值。

对于每个数据质量维度,定义表示标准质量和质量差数据的值和范围。特别需要注意的是:同一个指标名称,可能会有不同的度量规则,因此需要执行许多不同的数据质量评估。

反复查看并确认数据质量是否可以被接受。

在适当数据流转中采取纠正措施,例如:清理数据并改进数据处理流程,以防止问题再次发生。

定期重复上述步骤,以监控数据质量趋势。

三、提高数据质量的方法

1、明确业务需求并从需求开始控制数据质量

要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业务需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。

企业需要将数据质量的控制从需求开始集成到分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。

2、建立数据质量管理机制

从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。

(1)探查数据内容、结构和异常通过探查,可以识别数据的优势和弱势,帮助企业确定业务实施计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。

(2)建立数据质量度量并明确目标企业需建立一个共同的平台并完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。

(3)设计和实施数据质量业务规则明确企业的数据质量规则,即可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。

(4)将数据质量规则构建到数据集成过程中

数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。

在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。

但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。

(5)检查异常并完善规则

在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。

目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。

对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。

(6)对照目标,监测数据质量

数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。可选择仪表板和报告进行监测。

数据质量是什么,数据质量分析怎么做?

3、对不同数据的数据问题分类处理

在时间维度上分,企业数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,也要采取不同的处理方式。

(1)历史数据如果你拿着历史数据,找业务部门给你做整改,业务部门通常以“当前的数据问题都处理不过来,哪有时间帮你一起追查历史数据的问题”为理由无情拒绝。这个时候即便是找领导协调,一般也起不到太大的作用。对于历史数据问题的处理,一般可以发挥IT技术人员的优势,用数据清洗的办法来解决,清洗的过程要综合使用各类数据源,提升历史数据的质量。

(2)当前数据当前数据的问题,需要通过从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面来解决。

(3)未来数据未来数据的处理,一般要采用做数据规划的方法来解决,从整个企业信息化的角度出发,规划统一企业数据架构,制定企业数据标准和数据模型。借业务系统改造或者重建的时机,来从根本上提高数据质量。当然这种机会是可遇而不可求的,在机会到来之前应该把企业数据标准和数据模型建立起来,一旦机会出现,就可以遵循这些标准。

通过对不同时期数据的分类处理,做到事前预防、事中监控、事后改善,有助于从根源上解决数据质量问题,为企业的发展带来突破和创新。

工欲善其事,必先利其器,检测之前咱们有必要对检测工具有基本的认知:

数据质量是什么,数据质量分析怎么做?

亿信数据质量管理平台提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。 同时遇到重大问题能够及时警告,对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多