本文根据幕布上这篇思维导图总结而得无需AI基础,小白也能看懂的知识图谱技术与应用 对知识图谱了解还不多,后续会跟进。。。 一、什么是知识图谱?定义学术上:语义网络(Semantic Network)的知识库 应用中:多关系图(Multi-relational Graph) 什么叫多关系图?图:由节点和边构成,通常只包含一种类型的节点和边 多关系图:包含多种类型的节点和多种类型的边
知识图谱中的节点和边节点: 通常用实体(Entity)来表达 实体:现实世界中的事物
边 二、知识图谱的表达属性图(Property Graph)运用前提:当知识图拥有属性时 运用场景:工业界 [图片上传失败...(image-b7b9b9-1534511439797)] 图片概述:李明李飞是父子关系,李明拥有138开头的电话号,开通时间是2018 电话号属性:2018年开通 李明属性:25岁、职位总经理 RDF(资源描述框架)运用前提:不支持实体或关系拥有属性 运用场景:学术界 三、知识抽取数据主要来自2种渠道业务本身的数据 包含在公司内的数据库表 以结构化的方式存储 只需简单预处理即可输入后续AI系统
网络公开、抓取的数据 以网页形式存在 属于非结构化数据 需要借助自然语言处理等技术提取结构化信息
处理非结构化数据涉及的自然语言处理技术实体命名识别(Name Entity Recognition) 关系抽取(Relation Extraction) 实体统一(Entity Resolution) 有些实体写法不一样,但指向同一个实体 合并实体,减少种类,降低图谱稀疏性
指代消解(Coreference Resolution)
四、知识图谱的存储基于RDF的存储以三元组的方式来存储数据 不包含属性信息 数据易发布、易共享 多用于学术界场景 推荐使用:Jena
基于图数据库的存储以属性图为基本的表示形式 节点和关系可以带有属性 高效的图查询和搜索 多用于工业界场景 推荐使用:Neo4j
五、金融知识图谱的搭建搭建的核心: 对业务的理解 知识图谱本身的设计
搭建步骤: 定义具体的业务问题 数据的收集和预处理 知识图谱的设计 把数据存入知识图谱 上层应用的开发,以及系统的评估
1. 定义具体的业务问题哪种业务问题适合用知识图谱? 有强烈的可视化需求 经常涉及到关系的深度搜索 对关系查询效率有实时性要求 数据多样化,解决数据孤岛问题 有能力、有成本搭建系统
哪种业务问题适合用传统数据库? 对可视化需求不高 很少涉及关系的深度搜索 关系查询效率要求不高 数据缺乏多样性 暂时没有人力或成本不够
案例需要解决的业务问题 2. 数据的收集 & 预处理确定数据源: 用户的基本信息 用户行为数据 运营商数据 网络上的公开信息
3. 知识图谱的设计常见问题 需要哪些实体、关系和属性? 哪些属性可以做为实体,哪些实体可以作为属性? 哪些信息不需要放在知识图谱中? 设计知识图谱BAFE原则 Business-业务原则 从业务逻辑出发 观察知识图谱可以推导出业务逻辑 设计时想好未来业务可能的变化
Analytics-分析原则 与关系分析无关的实体不放进图谱 Efficiency-效率原则 常用信息放进知识图谱 对分析没有太多作用的不放进图谱 访问效率低的不放进图谱
Redundancy-冗余原则 重复性信息、高频信息可放入传统数据库 4. 把数据存入知识图谱10亿节点以下规模的图谱 使用Neo4j 超过10亿节点的庞大数据量 5. 上层应用的开发,以及系统的评估基于规则的方法论不一致性验证 基于规则提取特征 特征一般基于深度的搜索 如:申请人二度关系里有多少个实体触碰了黑名单?
[图片上传失败...(image-13d414-1534511439797)] 基于模式的判断 基于概率的方法社区挖掘:从数据图中找出一些社区,进行进一步分析 标签传播:核心在于节点之间信息的传递 基于概率的方法的缺点:需要足够多的数据 基于动态网络的分析六、知识图谱在其他行业的应用教育行业依据交互、评测、互动数据,理解学生当前的知识体系 根据逻辑进行个性化教育、因材施教 证券行业最为常见:“一个事件发生了,对哪些公司产生什么样的影响?” 如:公司1高管的负面事件,对其他公司的影响
|