分享

数据治理(五):规则处理引擎

 北欧模式 2022-09-19 发布于陕西

对于数据治理而言,针对不同来源、不同格式的数据,利用规则处理引擎将其规范化,是一个非常重要的过程。

数据治理为每个数据项制定相关联的数据元标准,并为每个标准数据元定义一定的处理规则,这些处理逻辑包括数据转换、数据校验、数据拼接赋值等。基于机器学习等技术,对数据字段进行认知和识别,通过数据自动对标技术,解决在数据处理过程中遇到的数据不规范的问题。

举例:根据数据项标准定义规则模板,下图中出生日期的值域稽核规则为YYYY:MM:DDYYYY-MM-DD,其取值范围规则为:1900<YYYY<=20201<=MM<=121<=DD<=31。将数据项与标准库数据对应起来。

2.规则处理示意图

借助机器学习推荐来简化人工操作,根据语义相似度和采样值域测试,推荐相似度最高的数据项关联数据表字段,并根据数据特点选择适合的转换规则进行自动标准化测试。根据数据项的规则模板自动生成字段的稽核任务。

规则体系中包含很多数据处理的逻辑:将不同数据来源中各种时间格式的数据项,转化成统一的时间戳(timestamp)格式;对数据项做加密或者哈希转换;对身份证号做校验,检验是否为合法的18位身份证号,如果是15位的,则将其统一转换成18位;将多个数据项通过指定拼接符号,连接成一个数据项;将某个常量或者变量值赋给某个数据项等。

规则库中的规则可以多层级迭代,形成数据处理的一条规则链。规则链上,上一条规则的输出作为下一条规则的输入,通过规则的组合,能够灵活地支持各种数据处理逻辑。例如:对身份证号先使用全角转半角的规则,对输出的半角值使用身份证校验转换规则,统一成18位的身份证号;再对18位身份证号使用数据脱敏规则,将身份证号转成脱敏后的字符串。

您的赞赏就是我前进的动力

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多