数据仓库的数据质量
(一)数据质量的衡量标准、好处和问题 数据质量的好坏是决定一个数据仓库成功的关键,但是需要从那些方面衡量数据仓库中数据的质量呢? 可以从下列方面衡量系统中的数据质量: 准确性:存储在系统中的关于一个数据元素的值是这个数据元素的正确值 ; 域完整性:一个属性的数值在合理且预定义的范围之内; 数据类型:一个数据属性的值通常是根据这个属性所定义的数据类型来存储的; 一致性:一个数据字段的形式和内容在多个源系统之间是相同的。 冗余性:相同的数据在一个系统中不能存储在超过一个地方; 完整性:系统中的属性不应该有缺失的值; 重复性:完全解决一个系统中记录的重复性的问题; 结构明确:在数据项的结构可以分成不同部分的任何地方,这个数据项都必须包含定义好的结构; 数据异常:一个字段必须根据预先定义的目的来使用; 清晰:一个数据元素必须有正确的定义,也就是需要一个正确的命名; 时效性:用户决定了数据的时效性; 有用性:数据仓库中的每一个数据元素必须满足用户的一些需求; 符合数据完整性的规则:源系统中的关系数据库中存储的数据必须符合实体完整性及参考完整性规则。 既然数据质量是成功的关键,那么,提高数据质量有那些好处: 对实时信息的分析:高质量的数据提供及时的信息,是为用户创造的一个重要益处; 更好的客户服务:完整而准确的信息能够大大提高客户服务的质量; 更多的机会:数据仓库中的高质量数据是一个巨大的市场机会,它给产品和部门之间的交叉销售打开了机会的大门; 减少成本和风险:如果数据质量不好,明显的风险就是战略决策可能会导致灾难性的后果。 提高生产率:用户可以从真个企业的角度来看待数据仓库的信息,而全面的信息促使流程和真个操作更顺畅, 从而提高生长率; 可靠的战略决策制定:如果数据仓库的数据是可靠而高质量的,那么基于这些信息进行的决策就是好的决策。 在数据处理过程中,会有那些数据质量问题: 字段中的虚假值 数据值缺失 对字段的非正规使用 晦涩的值 互相冲突的值 违反商业规则 主键重用 标志不唯一 不一致的值 不正确的值 一个字段多种用途 错误的集成
(二)数据质量的挑战 数据的污染是在数据仓库中处理的,但是数据的污染却是在数据仓库之外发生,所以我们必须要知道数据有那些污染源: 系统转换:系统转换和迁移是数据污染的重要原因; 数据老化: 复杂的系统集成:源系统种类越繁多,出现污染数据的可能性就越大; 拙劣的数据库设计:坚持实体完整性和参考完整性规则可以防止一些数据污染; 数据输入的不完整信息: 输入错误:错误的数据输入是数据污染的一个主要来源; 国际化/本地化: 欺诈:有些数据是故意输入错误的; 缺乏相关政策:如果一个公司对数据质量没有明确的相关政策,它的数据质量就不可能得到保证。
数据质量问题产生的影响: 根据常规分析方法所作出的错误决定; 由于“脏”数据或数据不可用失去商业机会; 由于错误的数据导致要重新运行数据清洗,造成源系统额外开销; 由于数据不符合规则二导致政府机构的惩罚; 审查的问题; 不必要的冗余数据占用资源; 不一致的报表; 每次发现并修改数据错误所耗费的时间和精力。
(三)数据质量工具
现在已经清楚数据质量从那里来,会带来什么问题,做好数据质量管理能带来那些好处,那么,我们可以采用那些方法和工具来保证数据的质量。 数据清洗工具 数据错误发现工具用于识别源数据的不准确和不一致;数据修正工具帮助修改受污染的数据。 数据清洗工具的错误发现: 方便快捷地识别重复记录; 辨认出那些超出合法域值范围地数据项; 找到不一致地数据; 检查允许值的范围; 检测不同来源地数据项地不一致性; 允许用户辨认和确定数据质量问题的数量; 监控数据质量随时间变化地趋势; 面向用户报告分析所用数据地质量; 解决关系数据库管理系统数据参考完整性地问题。 数据修正工具的数据修正: 规范不一致地数据; 改善不同数据源中数据地合并过程; 对属于同一个家庭地客户记录进行分群和关联; 提供数据质量地衡量指标; 使允许地数值生效。
(四)确保数据质量 为保证数据仓库数据地质量,需要对数据进行清洗,有两种清洗方法:一种是只让干净地数据进入数据仓库;而是在需要地时候清洗。 进行数据清洗决策需要解决地基本问题: 需要清洗那些数据:需要由用户决定那些数据是重要地必须清洗,IT专家只起辅助作用; 在什么地方清洗: 怎样清洗数据:这就是怎样使用供应商地工具,如果工具不能满足则要自己编写代码; 如何查明数据污染的程度:这个需要操作型系统、数据仓库潜在用户以及IT人员共同参与地工作; 建立一个数据质量框架:框架将指导数据质量地工作。 |
|