完整的知识图谱体系非常复杂,通常包含很大比例的知识获取与融合。如下图,主要涉及NLP等技术的应用,这部分目前来说还没有通用的一站式技术解决方案,也具有很高的难度,需要较大的成本来建设。 但对于要初步构建知识图谱,直接从源头去做起可能并不必需。我们完全可以使用已有的结构化数据,如公司自己的关系型数据库中的数据,或者有大数据平台的,也可以直接从数仓中抽取数据,或者部分外采数据。
由结构化数据建模构建知识图谱以银行反欺诈风险场景为例,首要明确的是,通过知识图谱要实现什么? 比如一个简单直接的目的: 更直观的展示一个客户的全貌,即可以通过一个页面直观看到用户有转账关系的人及企业,使用过的IP,设备终端,同样终端及IP上关联的其他人,与之有交易关系的人及企业等等。再进一步更方便直观快捷的看到一个客户整体风险状况。 由此,从可视化的角度,就是将客户作为中心,查询与其关联的信息。
以及相关关联关系数据:亲属,转账,担保,消费,终端使用,IP使用,经营关系等等 初步确定我们所需要构建的图谱,我们可以轻易将结构化数据转为特定格式的图谱数据,导入图数据库,从而构建出基本所需的知识图谱。 以neo4j为例:
备注:在neo4j中导入数据并创建节点,因数据量过大,使用USING PERIODIC COMMIT 1000,防止数据过大溢出,with headers可以处理含有头文件的数据。 |
|