分享

【AI之美】系列四:知识图谱概述

 昵称16619343 2019-04-09

知识图谱VS话题模型

在上一篇文章中,我们详细分析了话题模型的优势与局限性,即匹配的扩展与精度的平衡,虽然很多信息服务商使用话题模型取得了一定的效果,但它也限制了用户体验提升的潜力。

针对这种情况,合享基于多年的技术沉淀与钻研,开创性的构建了“全球专利知识图谱”,已经将全球1.2亿件专利数据完全结构化,从中抽取技术方案、技术点、技术关系,建立起包含10亿个节点、100亿个关系的知识网络,为提升用户体验打下了坚实的基础。

“知识图谱”的概念是很朴素的,就是把抽象的知识变成具体的形式展现出来。例如,如图1所示。

图1 合享“全球专利知识图谱”举例

图中包含“燃烧器”、“电暖气”等数个知识点,有些知识点是实体,有些知识点是属性。知识点之间是有关系的,“燃烧器”具有“火盖”,“火盖”是“灶具”。

这样把知识点都写下来,然后连起来,就构成了“知识图谱”。不断的将新的知识加入其中,就是“知识挖掘”。把不同来源、不同形式的知识统一表示,就是“知识融合”。从“蓄热式”出发可以找到“灶具”的一些属性,就是“知识推理”。

我们回想一下自己是怎么思考问题的,比如我该买什么颜色的车。最可能是路线是:首先“爱人”喜欢“白色”,而且“白色”显得“干净”,方便“擦洗”,“自己”非常尊重“爱人”,所以选了白色的车。

到这里我们就能发现,知识图谱更贴近人的思维模式,它把物体内在的与外在的方方面面,都明确的表示出来,形成知识网络,然后游走在这个网络里。话题模型是把每个物体变成一个向量,但谁的脑子里会始终想着一个数学向量呢?

所以知识图谱是基础设施,其表征能力、计算能力相对于话题模型是质的变化。

知识图谱的挑战

图2列举了知识图谱的一些主要技术点,大体上由三部分组成:知识的获取、融合、应用。每一项技术都是一个专门的话题。人类社会积累下来的知识浩如烟海,如何获取知识,从非结构化数据中抽取结构化数据是第一个挑战。数据的来源多种多样,行业不一样,格式不统一,如何融合在一起是第二个挑战。在海量的知识体中遍历、检索、分析,与应用系统结合找到用户痛点,同时满足服务的性能与效果是第三个挑战。

图2 知识图谱的主要技术点

我们以“实体识别”为例,介绍下技术原理。举例:小明住在希尔顿酒店。“实体识别”的任务是从这段文本中抽取出实体,“小明”和“希尔顿酒店”。

主流的技术手段包括规则匹配、HMM、CRF、LSTM等。规则匹配的方式最直接,由人事先定义好规则,由计算机执行规则,其问题是规则繁杂不易穷举、不易维护。其余方法大多属于机器学习的思路,由人事先标注语料,哪些词属于实体,哪些词不属于实体,哪些词属于实体边界,然后训练模型,利用概率手段得到实体识别的结果。

以LSTM模型为例:LSTM(Long Short Term Memory Network)属于神经网络模型之一。最初级的神经元由输入、激活函数、输出组成,数学表达是Y(t) = f(W*x(t))。如果输出Y不仅和输入X有关,还和前一个时间点的计算结果有关,则数学表达就变成:H(t)=f(W1*H(t-1)+W2*x(t)), Y(t) = f(W*H(t)),Y是计算结果,H用户传递中间结果。再进一步,如果输出Y的同时,传递2个状态H和C,一个改变的快,一个改变的慢,就可以实现对以前的计算结果不同等看待,做到有的加强,有的减弱。但其内部过程比较繁琐,训练的复杂度也相应的提高了。

在LSTM之后再加上一步CRF计算,也是一个不错的选择。但每一种实体的表现形式不一样,所以在数据的结构化问题中,往往要多种方法配合使用,或者为每种数据训练不同的模型。

知识图谱的建立与应用,就是以自然语言处理、图像处理、深度学习等技术作为基础,其价值巨大,同时对技术的深度与广度的要求也比较高。

合享的知识图谱实践

合享作为一家知识产权领域的人工智能公司,专注于为广大用户提供可信、好用的智能服务。合享的知识图谱系统,包含全球1.2亿件专利、10亿个知识节点、100亿个关系。知识节点类型包括技术方案、技术点、组件、组件团等。关系类型比较多,有数千种类型。

图3 专利内容节选

在图3 的专利中描述了一种前端附件驱动器系统,是一个完整的技术方案,里边包含很多组件,若干个组件形成组件团,组件之间有各种关系。我们将这篇专利处理成如下形式:

当我们把1.2亿篇专利都处理成结构化模型之后,就会形成一张大网,这张大网将各领域的技术知识融会贯通。

incoPat研发的超级附图功能,就是典型的基于知识图谱的技术应用。专利的原始文本描述的是技术方案,是非结构化的,形式如下:

专利的附图形式如图4所示。

图4 专利附图举例

图中有一辆平衡车和部件的标号。专利的附图是技术方案的图形画展示,但是比较简单,信息量不算丰富。专利数据的图文是分开的,图是图,文是文。用户在阅读的时候,想知道标号“1”是什么组件,要去文章中找,问题是标号会很多,文章很长,需要花很多时间来回对应,是一件费眼睛费时间的事。

合享第一步从知识图谱中获取“平衡车”,“车体”,“前轮”等组件以及他们之间的关系,第二步利用OCR算法从图形中抽取出1、2、3等标号,第三步将两者融合到一起,就形成图5的形式,在图中把标号框出来,在旁边写上他的组件名称,节省用户的阅读时间,保护用户的眼睛。

图5 超级附图举例

知识图谱技术已经深入合享系统的方方面面,未来合享会推出更多的智能化应用,在功能层面与场景层面,帮助用户节省时间、提升效率。

本文作者

姜庭欣

合享汇智信息科技集团有限公司 CTO

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多