数据比对&形态探查是质量中心的2个很重要的功能,目前可以较好的解决数据质量的两类问题。用户在使用的过程中对产品提出了更高的要求:不只是比对Hive和其他数据源之间的数据,还要比对MySQL和MySQL的数据,还要能够支持调度,数据传输任务可以唤起数据比对等等。这些都需要在后面产品迭代中逐渐丰富。
业务系统数据一般需要经过数据传输/同步进入到大数据平台开展后续的加工。数据经过传输后是否和源表数据一致?中间有没有丢失?一般发生这种情况,首先要比对业务系统和大数据平台两个表的数据。在这个场景下,手工的处理成本非常高:需要两边按同样的逻辑计算,人工进行比对。 严选的供应链采购系统是比较老的业务系统,随着业务量的增长和业务逻辑的演进,原有的产品功能和系统架构越来越吃力:高峰的时候,业务方一天反馈的问题十个以上,产研投入一个产品+两个开发在问题排查和反馈上,新需求基本做不到及时响应。在这种情况下,产研不得已启动了采购系统的重构。重构分5块工作展开:业务梳理、架构设计、QA、数据迁移和外部依赖联动。其中数据迁移将直接影响数据仓库的数据:业务系统重构会涉及到历史数据的处理&增量数据的映射,数据仓库不会保留两套处理逻辑。 针对第一章节中提到的场景二:业务系统重构非常常见,在没有产品加持的情况下,纯投人处理成本非常高。主要工作如下:
重点来了:在没有产品支持的情况下,以上所有比对都需要手工定制SQL来完成校验!如果再叠加上数据重构,工作量翻了好几倍。 贴一张图给大家评估下硬写SQL比对的工作量: 数据质量中心有相对应的产品功能:数据比对,支持Hive和Hive,以及Hive和其他数据源之间的数据全文比对。可以非常完美的解决类似的问题。 选择源表和比对表,当前任务选择了数据源和比对数据源都为Hive的不同库之间的全文比对。产品会自动识别是否分区表,针对分区表默认勾选分区,也可以执行全表比对。 产品支持对数据权限做鉴权:没有当前表读权限的会给出提醒,但是任务还是可以保存的,只是不能执行。 比对方式:全量比对or抽样比对,抽样比对支持设定抽样比例 关联模式:支持主键关联和MD5关联 此处需要选择全文比对结果暂存库,可以选择保存并立即执行,也可以保存后在列表页面选择执行。当前产品功能只支持手工触发执行,正在规划调度执行功能,未来全文比对可以在数据传输任务后自动执行,也可以配置调度定期执行。 新建数据比对任务后可以选择立即执行,也可以直接保存后在列表内执行。列表内执行会做鉴权操作:只可以操作自己是owner的全文比对任务。 查看结果在执行实例的列表内,针对执行成功的实例,高亮查看结果操作。可以看到本次执行的结果,包含表级和字段级的结果两类。 通过产品功能极大的释放了数据开发工程师的工作。再回顾一下文章开头的采购系统重构场景。
其中的3和4:源端和结果数据质量保障可以通过数据比对完美解决! 数据比对&形态探查是质量中心的2个很重要的功能,目前可以较好的解决数据质量的两类问题。用户在使用的过程中对产品提出了更高的要求:不只是比对Hive和其他数据源之间的数据,还要比对MySQL和MySQL的数据,还要能够支持调度,数据传输任务可以唤起数据比对等等。这些都需要在后面产品迭代中逐渐丰富。 |
|