计算机审计中电子数据清洗的主要步骤

数据清洗展示 2015-10-16

展开全文

（一）定义和确定错误的类型。

1.数据分析。数据分析是数据清洗的前提与基础，通过详尽的数据分析来检测数据中的错误或不一致情况，除了手动检查数据或者数据样本之外，还可以使用分析程序来获得关于数据属性的元数据，从而发现数据集中存在的质量问题。

2.定义清洗转换规则。根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数，数据源中不一致数据和“脏数据”多少的程度，需要执行大量的数据转换和清洗步骤。要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言，从而使转换代码的自动生成变成可能。

（二）搜寻并识别错误的实例。

1.自动检测属性错误。检测数据集中的属性错误，需要花费大量的人力、物力和时间，而且这个过程本身很容易出错，所以需要利用高的方法自动检测数据集中的属性错误，方法主要有：基于统计的方法、聚类方法、关联规则的方法。

2.检测重复记录的算法。消除重复记录可以针对两个数据集或者一个合并后的数据集，首先需要检测出标识同一个现实实体的重复记录，即匹配过程。检测重复记录的算法主要有：基本的字段匹配算法，递归的字段匹配算法，Smith—Waterman算法，Cosine相似度函数。

（三）纠正所发现的错误。在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时，需要备份源数据，以防需要撤销上一次或几次的清洗操作。清洗时根据“脏数据”存在形式的不同，执行一系列的转换步骤来解决模式层和实例层的数据质量问题。为处理单数据源问题并且为其与其他数据源的合并做好准备，一般在各个数据源上应该分别进行几种类型的转换，主要包括：

1.从自由格式的属性字段中抽取值（属性分离）。自由格式的属性一般包含着很多的信息，而这些信息有时候需要细化成多个属性，从而进一步支持后面重复记录的清洗。

2. 确认和改正。这一步骤处理输入和拼写错误，并尽可能地使其自动化。基于字典查询的拼写检查对于发现拼写错误是很有用的。

3. 标准化。为了使记录实例匹配和合并变得更方便，应该把属性值转换成一个一致和统一的格式。

（四）数据回流。当数据被清洗后，干净的数据应该替换数据源中原来的“脏数据”。这样可以提高原系统的数据质量，还可避免将来再次抽取数据后进行重复的清洗工作。

【责任编辑：彭凡 TEL：（010）68476606】

原文：计算机审计中电子数据清洗的主要步骤 返回开发首页