分享

整合多源数据,“DataLink”助力智慧城市!

 anjm 2020-02-22
 2019-10-07

智慧城市不等同于信息化建设和数字化建设。智慧城市最本质的特征在于“大系统”概念,在于集成性、整合性、融合性。

第二届世界互联网大会“互联网之光”博览会上,展示了“新型智慧城市”建设的四个重点。其中第二点城市开放信息平台:以“平台+大数据”为策略,提供城市资源大数据通用服务平台,致力于实现数据共融共享,消除信息孤岛,保障数据安全,提高大数据应用水平。再次强调了数据的共融共享。

数据共融共享面临的痛点

不同部门的城市资源数据存储在不同的数据库中,如mysql、oracle、DB2、NoSql、MongoDb、HBase等。

城市资源数据的数据关系结构不一致不存在关联关系,如人口数据与企业、建筑、交通、政务等数据;

数据体量大,存在部分脏数据或者无用数据,如想要统计高新技术企业工作人员在某个区域中占比的人口比重,那么该区域人员之间的关系就是无用数据。

数据迁移的工作量大,无法对迁移过程进行监控,对迁移后的数据质量难以管理。

……

目前已有的一些数据融合共享工具,存在以下问题:

数据集成流程需要大量的代码开发工作,每个流程定制,不能灵活配置。

对数据同步流程无法进行可视化监控。

数据同步中不支持空间格式数据的迁移,往往将空间导出成文件后,再导入目标系统,操作繁琐。

“DataLink”助力智慧城市

还在为面对上述智慧城市的数据共融共享、消除信息孤岛的问题而苦恼?DataLink以网格化的方式整合多源异构数据,帮助大家解决这些问题。

DataLink怎么解决数据共融共享的痛点

支持多种数据库数据的导入与融合,解决数据存储在不同的数据库中的问题。

针对多源异构的数据不存在关联关系的痛点,提出对时间和空间维度的多源数据采用统一的时空剖分格网编码方法(时空剖分格网编码的原理与方法会在后续的公众号中详细介绍),对数据进行唯一的编码标识,以元数据的形式存储在所在格网中,为万物互联信息采集标准化提供入口。

针对存在无用数据或者脏数据的痛点,采用多种方式对数据进行清洗,如替换null值、列拆分为多行、去除重复值、增加常量、增加序列、字段值设为常量、字符替换等功能。

数据迁移的工作量大,无法对迁移过程进行监控,对迁移后的数据质量难以管控的痛点,提出将ETL任务通过可视化工作流展现至B/S架构的系统中的方式,实现了空间数据同步的分布式综合调度管控。

怎么用DataLink做城市资源大数据整合?

导入多源异构的数据

接入人口、企业、经济等城市资源大数据源数据库。通过填写源数据库的链接信息,可以在平台中查询平台内的数据,以及库表结构,无需切换多个工具,即可查看数据操作全流程。

资源数据编码

编码过程

对人口、企业等城市资源大数据中的时空数据进行网格编码。DataLink中提供多种编码方式,选取需要的编码方式,对人口与企业中的地名数据进行地名地址解析后,选择适合的层级,进行网格编码。

资源数据集成

依据网格编码进行数据整合。在进行数据整合前,先对城市资源数据中的脏数据进行清理,如:删除企业名为空的数据,清理重复企业数据。

然后选择清洗过的时空相关的城市资源数据,依据网格码列进行数据整合。对企业与经济数据等业务数据,根据企业ID进行整合。将整合后的数据输出到目标数据库中。

数据安全与权限

对整合作业进行监控。在以上作业保存后,可以在作业管理中,查看这些作业的运行状态与日志。

数据可视化展示

终于有一份完整的城市资源数据了。

但是,整合后的数据该怎么应用呢?

这就需要借助其他的工具将数据直观的展现,为应用决策提供支持,由此,我们将整合好的数据接入“洞见”(景轩信息摩尔格网云产品体系的另一款产品)中对整合后的数据进行可视化展示。

测试模拟数据整合及可视化结果

注:公司承接的多个项目中数据涉及到隐私权限,不便在此展出,望读者见谅。如有需求,可通过以下方式联系我们,我们期待您的加入!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多