分享

终于有人把知识图谱讲明白了

 浪逸书生 2024-01-20 发布于江苏

课丨程丨推丨荐

01 知识图谱的由来

1977年,美国计算机科学家费根鲍姆正式命名了知识工程。他在1994年获得了图灵奖,被誉为专家系统之父和知识工程的奠基人。知识工程是一种自上而下的方法,严重依赖于专家的干预,其基本目标是将专家的知识赋予机器,利用机器来解决问题。

在传统的知识工程中,首先需要有相关领域的专家,并且这些专家能够将自己的知识表达出来。其次,还需要有知识工程师将专家表达的知识转化为计算机可以处理的形式。

随着互联网的应用,知识工程进入了大数据时代。尽管传统的知识工程方法具有前瞻性,但其能够表示的规模有限,难以满足互联网时代大规模开放应用的需求。

为了解决这些问题,学界和业界的知识工程研究者们开始寻找新的解决方案。他们将目光转向数据本身,并提出了链接数据的概念。

链接数据不仅需要发布于语义网中,还需要建立数据之间的联系,从而形成一张巨大的链接数据网。谷歌的搜索引擎产品在这项技术上取得了重大突破,他们将其命名为“知识图谱”。

02 知识图谱的定义

知识图谱的目标是描述真实世界中存在的各种实体或概念以及它们之间的关系。它构成了一个庞大的语义网络图,其中节点表示实体或概念,边表示属性或关系。现如今,知识图谱已经被广泛应用于各种大规模的知识库。下面是一个关于产品全生命周期的知识图谱示例,如图1.5所示。一般而言,知识图谱中包含三种类型的节点:

图片

▲图1.5 产品全生命周期知识图谱

实体或概念是指具有可区别性且独立存在的某种事物。以图1.5为例,产品、产品1、研发设计、生产制造、采购、质量等都是独立存在的实体。世界上的万物由多个具体事物组成,实体在知识图谱中扮演着最基本的角色,不同的实体之间存在着各种不同的关系。

属性及其对应的属性值用来描述实体的内在特性,属性与属性值之间形成了一种指向关系。不同的属性类型对应着不同类型的属性边。属性值主要指的是对象所具有的属性的具体取值。在图1.5中,“采购”、“生产”、“质量”是几种不同的属性类型,而属性值则指示了采购物料的数量和价格、生产数量和进度、以及采购和生产的质量指标。

关系用来连接两个实体,描述它们之间的关联。知识图谱可以被视为一张巨大的关系网络图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。

03 知识图谱的技术架构

知识图谱的技术架构指的是构建模式的结构,如下图所示。图中展示了知识图谱的构建过程和更新过程。

图片

▲图1.6 知识图谱的技术架构

知识图谱的构建是从原始数据开始,包括结构化、半结构化和非结构化数据。通过一系列自动或半自动的技术手段,从原始数据库和第三方数据库中提取知识,并将其存入知识库的数据层和模式层。这个过程包括数据采集、知识抽取、知识融合、知识加工和知识应用等五个步骤,每次更新迭代都包含这四个阶段。

知识图谱的构建方式主要有自顶向下和自底向上两种。

自顶向下是先定义知识图谱的本体和数据模式,然后将实体添加到知识库中。这种构建方式需要利用一些现有的结构化知识库作为基础知识库,例如Freebase项目就是采用这种方式,它的大部分数据来自维基百科。

自底向上是从开放链接数据中提取实体,选择置信度较高的实体加入知识库,然后构建顶层的本体模式。

对于大多数制造业企业而言,由于缺乏大量的实证数据,在应用初期主要使用自顶向下的构建方式。

04 知识图谱与大数据的区别

知识图谱运用新的技术和方法论,提升信息转化为知识并被利用的效率。它与大数据的抽象工作都涉及到'结构化'和'关联'。大数据主要关注数据的结构化和数据级别的关联,而知识图谱则着重于知识的结构化和知识级别的关联

在知识图谱技术中,知识结构化是通过三元组的数据结构对实体和关系进行建模。在解决分析洞察问题时,知识图谱更直观和高效地处理'关系'。它的目标是将人工的过程转移到计算机中,以更高效地完成这一工作。

大数据的目标是将非结构化的数据转化为结构化的数据,使其可以被计算机分析。从这个意义上讲,传统的企业大数据平台、数据治理和知识图谱都可以共享企业的大数据。

图片

来源: 智导者

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多