【原】数据治理（五）：规则处理引擎

北欧模式 2022-09-19 发布于陕西

展开全文

对于数据治理而言，针对不同来源、不同格式的数据，利用规则处理引擎将其规范化，是一个非常重要的过程。

数据治理为每个数据项制定相关联的数据元标准，并为每个标准数据元定义一定的处理规则，这些处理逻辑包括数据转换、数据校验、数据拼接赋值等。基于机器学习等技术，对数据字段进行认知和识别，通过数据自动对标技术，解决在数据处理过程中遇到的数据不规范的问题。

举例：根据数据项标准定义规则模板，下图中“出生日期”的值域稽核规则为YYYY:MM:DD或YYYY-MM-DD，其取值范围规则为：1900<YYYY<=2020，1<=MM<=12，1<=DD<=31。将数据项与标准库数据对应起来。

图2.规则处理示意图

借助机器学习推荐来简化人工操作，根据语义相似度和采样值域测试，推荐相似度最高的数据项关联数据表字段，并根据数据特点选择适合的转换规则进行自动标准化测试。根据数据项的规则模板自动生成字段的稽核任务。

规则体系中包含很多数据处理的逻辑：将不同数据来源中各种时间格式的数据项，转化成统一的时间戳(timestamp)格式；对数据项做加密或者哈希转换;对身份证号做校验,检验是否为合法的18位身份证号,如果是15位的,则将其统一转换成18位；将多个数据项通过指定拼接符号，连接成一个数据项；将某个常量或者变量值赋给某个数据项等。

规则库中的规则可以多层级迭代，形成数据处理的一条规则链。规则链上，上一条规则的输出作为下一条规则的输入，通过规则的组合，能够灵活地支持各种数据处理逻辑。例如：对身份证号先使用全角转半角的规则，对输出的半角值使用身份证校验转换规则，统一成18位的身份证号；再对18位身份证号使用数据脱敏规则，将身份证号转成脱敏后的字符串。