【AI之美】系列四：知识图谱概述

昵称16619343 2019-04-09

展开全文

知识图谱VS话题模型

在上一篇文章中，我们详细分析了话题模型的优势与局限性，即匹配的扩展与精度的平衡，虽然很多信息服务商使用话题模型取得了一定的效果，但它也限制了用户体验提升的潜力。

针对这种情况，合享基于多年的技术沉淀与钻研，开创性的构建了“全球专利知识图谱”，已经将全球1.2亿件专利数据完全结构化，从中抽取技术方案、技术点、技术关系，建立起包含10亿个节点、100亿个关系的知识网络，为提升用户体验打下了坚实的基础。

“知识图谱”的概念是很朴素的，就是把抽象的知识变成具体的形式展现出来。例如，如图1所示。

图1 合享“全球专利知识图谱”举例

图中包含“燃烧器”、“电暖气”等数个知识点，有些知识点是实体，有些知识点是属性。知识点之间是有关系的，“燃烧器”具有“火盖”，“火盖”是“灶具”。

这样把知识点都写下来，然后连起来，就构成了“知识图谱”。不断的将新的知识加入其中，就是“知识挖掘”。把不同来源、不同形式的知识统一表示，就是“知识融合”。从“蓄热式”出发可以找到“灶具”的一些属性，就是“知识推理”。

我们回想一下自己是怎么思考问题的，比如我该买什么颜色的车。最可能是路线是：首先“爱人”喜欢“白色”，而且“白色”显得“干净”，方便“擦洗”，“自己”非常尊重“爱人”，所以选了白色的车。

到这里我们就能发现，知识图谱更贴近人的思维模式，它把物体内在的与外在的方方面面，都明确的表示出来，形成知识网络，然后游走在这个网络里。话题模型是把每个物体变成一个向量，但谁的脑子里会始终想着一个数学向量呢？

所以知识图谱是基础设施，其表征能力、计算能力相对于话题模型是质的变化。

知识图谱的挑战

图2列举了知识图谱的一些主要技术点，大体上由三部分组成：知识的获取、融合、应用。每一项技术都是一个专门的话题。人类社会积累下来的知识浩如烟海，如何获取知识，从非结构化数据中抽取结构化数据是第一个挑战。数据的来源多种多样，行业不一样，格式不统一，如何融合在一起是第二个挑战。在海量的知识体中遍历、检索、分析，与应用系统结合找到用户痛点，同时满足服务的性能与效果是第三个挑战。

图2 知识图谱的主要技术点

我们以“实体识别”为例，介绍下技术原理。举例：小明住在希尔顿酒店。“实体识别”的任务是从这段文本中抽取出实体，“小明”和“希尔顿酒店”。

主流的技术手段包括规则匹配、HMM、CRF、LSTM等。规则匹配的方式最直接，由人事先定义好规则，由计算机执行规则，其问题是规则繁杂不易穷举、不易维护。其余方法大多属于机器学习的思路，由人事先标注语料，哪些词属于实体，哪些词不属于实体，哪些词属于实体边界，然后训练模型，利用概率手段得到实体识别的结果。

以LSTM模型为例：LSTM(Long Short Term Memory Network)属于神经网络模型之一。最初级的神经元由输入、激活函数、输出组成，数学表达是Y(t) = f(W*x(t))。如果输出Y不仅和输入X有关，还和前一个时间点的计算结果有关，则数学表达就变成:H(t)=f(W1*H(t-1)+W2*x(t)), Y(t) = f(W*H(t))，Y是计算结果，H用户传递中间结果。再进一步，如果输出Y的同时，传递2个状态H和C，一个改变的快，一个改变的慢，就可以实现对以前的计算结果不同等看待，做到有的加强，有的减弱。但其内部过程比较繁琐，训练的复杂度也相应的提高了。

在LSTM之后再加上一步CRF计算，也是一个不错的选择。但每一种实体的表现形式不一样，所以在数据的结构化问题中，往往要多种方法配合使用，或者为每种数据训练不同的模型。

知识图谱的建立与应用，就是以自然语言处理、图像处理、深度学习等技术作为基础，其价值巨大，同时对技术的深度与广度的要求也比较高。

合享的知识图谱实践

合享作为一家知识产权领域的人工智能公司，专注于为广大用户提供可信、好用的智能服务。合享的知识图谱系统，包含全球1.2亿件专利、10亿个知识节点、100亿个关系。知识节点类型包括技术方案、技术点、组件、组件团等。关系类型比较多，有数千种类型。