数据质量让您能够清理和管理数据,同时让数据可供整个企业使用。高质量的数据让战略系统能够集成所有相关数据,以提供组织及其内部相互关系的完整视图。数据质量是决定决策可靠性的重要特征。 数据是宝贵的资产,必须对其在企业内的移动进行管理。随着信息来源越来越多且越来越多样化,监管合规性计划越来越受到关注,持续、可靠地集成、访问和重用来自这些不同来源的信息变得至关重要。 数据质量可以根据以下维度进行测量: 1、完整性:是否有丢失或无法使用的数据? 2、数据是否符合标准格式? 3、一致性:数据值是提供一致的信息还是提供冲突的信息? 4、准确性:数据是准确的,还是过时的? 5、重复:数据记录或属性在不应该重复的地方是重复的吗? 6、完整性:数据是可引用的还是缺少约束? Step 1:事前定义数据的监控规则 数据质量需求 下游主动发现问题、数据产品收集、监控事后问题优化 提炼规则 梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则制定 Step 2:事中监控和控制数据生产过程 质量监控和工作流无缝对接 支持定时调度 强弱规则控制ETL流程 对脏数据进行质量清洗 Step 3:事后分析和问题跟踪 邮件短信报警 稽核报告查询 数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率 问题分析 异常进行评估、严重程度、影响范围确定、问题分类 表打分和质量趋势 表的打分、表的质量趋势、表异常数据查询、对项目外提供表质量查询 报警问题跟踪处理 数据质量事件、故障定义、故障处理和定级 数据质量是存在于企业的源系统中的,如常见的客户代码的不规范,同一个客户在不同的系统中(例如业务处理系统和财务系统)有不同的代码,甚至同一个客户在同一个系统中也有不同的代码,以保险公司的业务处理系统为例,同一个客户先后在同一个保险公司投保,不同的业务员可能会输入不同的客户代码;更常见的是那些没有实现大集中的分布式的应用,同一个客户在不同的分公司投保,业务员很可能会输入不同的代码;再如,在业务处理系统中,有些录入人员为了录入的方便,常常将一些内容不输或者采用默认值,造成一些重要录入信息的缺失或错误。这些数据质量问题对我们的数据分析系统造成严重的干扰和破坏。 数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。 现在很多大型企业已意识到数据信息和数据质量的重要性,专门成立了数据中心来管理数据方面的工作。只有认识到数据在管理中的重要作用,才会反过来重视数据质量问题。要让企业的每一个员工都能认识到数据是企业重要的战略资源,企业的一切决策都来源于数据。没有正确的高质量的数据,就没有正确的决策。 |
|