分享

数字化转型时代的知识图谱实践|5步掌握知识图谱

 逍逍遥遥 2024-05-11 发布于河南

我们正在迈入一个以数据为核心的数字化转型时代,在这个以数据为燃料的时代,掌握知识图谱的构建和应用,将成为每一个组织乃至个人的必备技能。无论是为了提升业务效率,还是为了深化科学研究,知识图谱都为我们提供了一个强大而灵活的平台。

传统的数据模式表现为受用人群有限制且门槛及专业要求比较高,非技术和专业领域的从业人员,难以分析数据并将数据的价值和作用发挥出来,而知识图谱则对于无技能要求的普通用户也能够利用其进行链接和分析数据,提升业务效率。

图片

随着技术的不断进步和实践的不断积累,我们相信,知识图谱将在数字化转型的大潮中扮演越来越重要的角色。

我们来认识一下什么是知识图谱,下面这张图就是知识图谱的典型案例。

图片

简单介绍一下知识图谱,较详细的知识图谱介绍可以参阅我写的《一文读懂人工智能背后的技术:知识图谱一文,更详细的内容可以阅读以下几本书籍。

知识图谱(Knowledge Graph)旨在描述世界万物的知识、概念、实体、属性、事件及其之间的关系。可以将知识图谱简单理解为把实物连接在一起组成的网络,这些网络就是我们所谓的图谱。它以结点来代表实体、概念、事件,每一个结点都是一知识点,而边代表实体/概念之间的各种语义关系。

知识图谱以符号形式结构化地描述物理世界中的实物及其相互关系。

物理世界中的实物有很多(比如:张三、中国、北京、汽车、手机、某某企业等等),在知识图谱中将这些实物抽象为实体,这些实体之间存在一定的关联关系,则称之为关系(比如夫妻关系、朋友关系、任职关系、归属关系、持股关系等等),下面就是两个比较简单的知识图谱。

图片

那知识图谱如何构建呢,基本构建流程主要包括本体构建——数据源配置——信息抽取——知识映射——知识融合——知识加工——图谱应用

图片

1.本体构建

本体构建即构建图谱的模型schema,是对构成图谱的数据的一种约束,可以简单理解为关系型数据库中的表结构。schema构建非常重要。可以通过梳理领域知识、术语词典、人工经验等作为schema构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义。

Schema包含的内容为概念、属性(数值属性、对象属性)。

概念主要是指集合、类别、对象类型、事物的种类,如人、动物等。概念类似一个分类,比如人可以是一类,而具体的人,张三就是这个概念下的一个实体。

属性主要是指对象可能具有的属性、特征、特点及参数,如地点、性别、生日等。

实体自己的特征叫实体属性,实体和其他实体之间的关系,叫关系属性。比如性别男就是张三的属性,而张三和李四是兄弟,这个【兄弟】关系就是关系属性。

根据上面的描述,最简单的Schema长这样

图片

最简单的知识图谱长这样。

图片

复杂的知识图谱长这样

图片

图谱从简单到复杂,在Schema模型设计阶段,就需要模型设计人员充分考虑用户的具体需求,不同的应用场景,对知识图谱的结构和内容有着不同的要求。例如,医疗领域的知识图谱可能会更加关注疾病、症状、药物等实体及其相互之间的关系,而金融领域的知识图谱则可能侧重于公司、股票、市场动态等信息。

还需要对节点和关系进行细致的分类,引入层次化的概念,层次化的Schema能够反映现实世界中复杂的类别体系。例如,在“交通工具”这一大类下,我们可以细分为汽车、飞机、轮船等子类。每个子类又能拥有自己的属性和关系,形成一张错综复杂但又井然有序的网络。

在设计Schema时,我们必须考虑到数据的隐私保护和安全性。这意味着我们在开放数据的同时,也要设立相应的权限管理和访问控制机制,确保知识图谱的安全可靠。

在构建知识图谱的过程中,我们不得不提到数据的来源问题。高质量的数据是构建知识图谱的基石。在选择数据源时,我们必须考虑其准确性、时效性和完整性。这要求我们不断地更新和维护数据,保证知识图谱的活性和有效性。

一个好的chema设计,应当能够容纳未来可能出现的新实体、新关系,甚至是新的数据类型。这种前瞻性的设计理念,使得知识图谱能够与时俱进,不断适应新的信息需求。

2.数据源配置

在过去已经存有了大量的结构化、半结构化、非结构化的数据数据在入图之前,先要处理数据。我们需要将不同类型、不同格式的数据进行初步的整理

结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。

半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,或者是音频或视频等,这就是一些非结构化数据。但它里面是存储了一些信息的,反映了知识图谱里的一些属性,所以需要通过一定的技术抽取成结构化的数据,这是构建知识图谱中比较费时费力的一个工作。

这些数据可能是人工整理的、用各种正则表达式抽取的、也可能是在其他系统中已经。这些数据可能在Oracle、MySQL、GaussDB等数据库中,也可能在Excel、CSV的文件中,或者在Hadoop、Hbase这样的大数据平台、数仓以及数据湖中。我们可以通过规则、映射等方法,用这些数据构建图谱。

3.知识抽取

经过对数据的初步分析和Schema设计之后,就需要从各种信息源中识别、理解、筛选和抽取知识,并将其存储形成知识库。简单理解为需要按照设计的Schema填充数据,但是填充数据的过程中我们需要注意以下几个问题。

知识抽取应包括实体抽取、关系抽取、属性抽取。也就是说要将数据按照实体、关系、属性的维度进行分类

实体抽取(Entity Recognition),是从文本中检测出命名实体,并将其分类到预定义的类别中。这些类别通常包括人物、组织、地点、时间等。

实体抽取是解决很多自然语言处理问题的基础,也是知识抽取中最基本的任务。现有的实体抽取方法可以分为基于规则的方法、基于统计模型的方法和基于深度学习的方法。基于深度学习的方法,如LSTM-CRF和BiLSTM-CRF模型,已经在实体识别方面取得了显著的成果。

关系抽取(Relation Extraction),关系抽取是从文本中抽取实体及实体之间的关系。这通常是在识别出文本的实体后,再抽取实体之间可能存在的关系。关系抽取方法可以分为基于模板的方法、基于监督学习的方法和基于弱监督学习的方法。

其中,基于监督学习的关系抽取问题是转化为分类问题,模型的选择主要有SVM、朴素贝叶斯等机器学习分类模型。近年来,深度学习表示学习的方法也在关系抽取领域得到了广泛应用。

事件抽取(Event Extraction),事件抽取是识别事件的发生,通常包括时间、地点、参与者等属性。事件抽取任务包含的子任务有识别事件触发词以及事件类型,抽取事件元素的同时判断其角色,抽取描述事件的词组或句子,事件属性标注,以及事件共指消歧。

事件抽取方法可以分为流水线方法和联合抽取方法。流水线方法将事件抽取任务分解为一系列基于分类的子任务,而联合抽取方法将事件的所有相关信息通过一个模型同时抽取出来,以减少误差的积累。

4.知识融合

经过对实体、关系、属性抽取之后,则会形成知识,获得新知识之后,需要对其进行整合,以消除矛盾和歧义。

知识图谱的构建经常需要融合多种不同来源的数据,某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。

由于知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。例如,对于相似领域,通常会存在多个不同的概念或实体指称真实世界中的相同事物。因此,知识融合是非常必要的。

知识融合的主要工作是实体对齐,即确认来源于不同知识库的同一实体。此外,还有概念层的知识融合、跨语言的知识融合等工作。其基本技术流程包括数据预处理、属性相似度计算和实体相似度计算。

数据预处理阶段,原始数据的质量会直接影响到最终链接的结果,对这些数据进行归一化是提高后续链接精确度的重要步骤。属性相似度的计算有多种方法,常用的有编辑距离、集合相似度计算、基于向量的相似度计算等。实体相似度的计算有加权平均、手动制定规则、分类器等方法。

5.知识加工

知识加工则是从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。这是知识图谱构建的重要手段和关键环节。

知识推理方法包括但不限于基于逻辑的推理、描述逻辑和基于规则的推理。这些方法可以帮助知识图谱理解和解释实体之间的复杂关系,从而提供更准确、更丰富的信息。比如从已有的同事关系中推理出疑似同事关系,从地址关系中推理出共地址关系等。当然,从广义的角度讲,以上步骤中的知识抽取、融合都可以统称为知识加工。

6.图谱应用

知识图谱作为一种特殊的数据结构,它包含了语义信息与图结构信息,已经被广泛应用于各个领域。以下是知识图谱的一些主要应用:

语义搜索,主要是用来优化现有的搜索引擎。与基于关键词搜索的传统搜索引擎不同,知识图谱可以用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。

例如,在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。另外,对于稍微复杂的搜索语句比如”Who is the wife of Bill Gates“, Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

股票投研情报分析。通过知识图谱相关技术可以从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。

在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策。

公安情报分析。通过融合企业和个人银行资金交易明细、通话、出行、住宿、工商、税务等信息构建初步的“资金账户-人-公司”关联知识图谱。同时从案件描述、笔录等非结构化文本中抽取人(受害人、嫌疑人、报案人),事、物、组织、卡号、时间、地点等信息,链接并补充到原有的知识图谱中形成一个完整的证据链。辅助公安刑侦、经侦、银行进行案件线索侦查和挖掘同伙。

反欺诈情报分析。通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人张xx和借款人吴x填写信息为同事,但是两个人填写的公司名却不一样,以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为。

面向多源异构关系数据的自然语言问答。通过构建一个本体(该本体可以是从数据库的schema抽取后,然后通过人工来修改得到),然后构建本体和数据库的schema的映射以及数据之间的匹配,就可以方便的实现数据的集成和数据的语义关联,并且可以利用构建的本体和通过本体集成得到的知识图谱来对自然语言做解析,从而将自然语言查询直接转化为SQL去查数据库,并且给出答案,答案可以是用图表的方式来给出。

面向知识图谱的智能问答系统。知识图谱可以有逻辑推理能力,而推理可以通过规则来实现,也可以通过父子节点的继承实现。比如在Clue中提到的知识图谱,当被电子击中时,磷会发出电磁能量。

电商知识图谱的构建与应用。电商知识图谱的核心是商品。整个商业活动中由品牌商、平台运营、消费者、国家机构、物流商等多角色参与。相对于网页来说,数据的产生、加工、使用、反馈控制得更加严格,约束性更强。电商数据的结构化程度相对于通用领域来说做的更好。

以上只是知识图谱应用的一部分,随着技术的发展,知识图谱在医疗、金融、电商等更多的领域都有着广泛的应用前景。

尽管知识图谱的应用已经相当广泛,但它的未来发展潜力依然巨大。随着5G、物联网等新技术的普及,将会有更多的数据被收集和分析。知识图谱的规模和复杂性都将上升到一个新的层次。同时,随着算法的进步,知识图谱的构建和更新也将变得更加自动化和智能化。

一文读懂人工智能背后的技术:知识图谱

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多