分享

【联数】臧根林:知识降维作图谱 人工智能有阶梯

 ZZvvh2vjnmrpl4 2019-08-11

文章导读

大数据技术发展非常快速,2012年在中国开始提出大数据,短短几年时间已经从一种高大上的技术变成了基础性的技术,各行各业都在使用大数据。但如何让大数据发挥更大价值,大家都把目光转向人工智能的时候,发现人工智能离自己实际使用有相当的距离,甚至无从下手。其实,先把大数据构建成自己领域的知识图谱,形成机器学习、模型训练的知识资源,正是通往人工智能的阶梯。


作者:臧根林

CCF大数据专家委员会委员,博士,拓尔思知识图谱研究院院长。

由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发的阿尔法围棋(AlphaGo)人工智能机器人在2016年3月与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,引爆了新一轮人工智能热潮。人工智能研究从1956年开始,经过三起三落,至今已经60多年了,但始终发展没有达到我们的期望,现在有了大数据技术,在机器学习模型训练方面有了重大提升,在语义理解、图像识别等方面都有了不少突破,也出现了AI播音员等,但我们发现要实际运用的时候,人工智能离我们还有相当远的距离。比如无人驾驶汽车,试验阶段是没有问题的,真正上路为我们服务,能在复杂路况下像老司机一样安全驾驶,谁也说不清还需要等多少年。

怎么样才能让人工智能为人类服务?我认为这个问题非常像把一条狗训练成警犬的过程。狗的智商不如人类,但在“硬件”方面有优势,比如奔跑速度、嗅觉等等,我们要训练一条狗成为警犬,就必须让它学习,能理解人类的意图,知道要它做什么。训练狗的过程实际上知识降维的过程,我们人类脑子里的知识结构非常复杂,其存储结构、关联思维、决策判断过程至今也无法完全研究明白。要把这么复杂的知识结构让狗能理解,只能把维度降下来,比如找出一包毒品可以得到一份食物的奖励,也就是将毒品这个实体和它喜欢的食品这个实体建立了关系。训练人工智能其实也就是这样,计算机的计算、存储能力可扩展,超级计算机可以实现我们人类无法达到的高性能计算,但无法完全模拟我们人类的思维,只有我们把知识结构降维,形成一个计算机能看懂的结构,它的优势才能发挥。这样降维后形成的知识,基本上围绕着实体、实体的属性、实体之间的关系这三个要素展开,这种知识架构就是知识图谱。特别是现实世界中的大量知识是非结构化的,如声音、图像等,当计算机擅长处理的是结构化数据。知识图谱可以把实体的结构化信息和非结构信息关联起来。所以有一种说法,叫知识图谱是大数据走向人工智能的阶梯。

知识图谱本质上就是一个用图数据结构等技术作载体,描述客观事物及其关系的大型知识库。在具体实现上,知识图谱用语义网(Semantic Web)中的资源描述框架(ResourceDescription Framework,RDF)对知识体系和实例数据二个层面的内容进行统一表示,共同构成一个完整的知识系统。

世界本身不存在结构化或非结构化问题,在信息化时代之前也没有人去区分结构化或非结构化,但人类进入信息化时代,什么都想通过计算来得到结果,就产生了信息是否结构化问题。所以这个问题是人类为了将就计算机而产生的问题。知识图谱把这个问题进一步加深了,因为我们不仅仅想让计算机帮我们计算信息,还想让计算机学会跟我们人类一样去思考去判断,也就是现在很热门的人工智能。为了教育计算机看懂人类的知识,我们类似给幼儿设计看图识字本一样,将知识整理成知识图谱。

知识图谱的本质是具有有向图结构的知识库,知识图谱是人工智能应用不可或缺的基础资源。知识图谱分为两类:通用知识图谱和领域知识图谱。通用的知识图谱可以认为是百科全书,比如Google 知识图谱、DBpedia、YAGO和Freebase等;领域知识图谱是基于领域数据构建的知识图谱,用于领域分析研究工作。通用知识图谱的本体根类型,基本上就是实体(entity),然后再分类。通用知识图谱和领域知识图谱,从基础架构上基本相同,但由于领域知识图谱面向更为复杂的领域数据和场景,从构建和应用上来讲更加复杂。

虽然知识图谱概念由美国谷歌公司在2012年5月首次提出,但知识图谱这样的理念和表达思路在中国已经存在超过二千年,五行理论和相生相克图就是一个典型的知识图谱结构。知识图谱描述的关键三要素是实体、属性和实体之间的关系,五行相生相克图(图1)正是完整表达了这样的三个要素,金、木、水、火、土每个字不但表达一种类型实体,而且字面本身已经蕴含了属性解释,如“水”字自然就是指世界上一切液体性质的实体,每个实体都和另外四个发生联系,四条连线代表了实体之间相生或相克的关系。

图1  五行相生相克图

图2  公共安全领域五要素图

在很多领域的知识图谱,其实和五行相生相克图都有相似之处,图2就是是公安部门数据存储的常用分类,将数据分为人(人口信息)、地址(门牌楼等)、案件、物品(刀、枪、毒品等)及组织(某黑社会、邪教组织等)。

知识图谱可以用于各个行业领域,用于领域的数据整合和业务分析,比如政府分析、媒体分析、电商分析、金融分析、公安情报分析、学术领域、学科分析、军事信息搜索等。面向不同领域有不同的领域本体(Domain Ontoloty),领域本体是领域知识图谱的基础概念。在领域知识图谱工程中,最先需要确定的是本体中的对象类型。各个领域都有自己关注的主要对象,领域的信息化是围绕这些对象而产生和收集数据,所以在构建领域知识图谱中,这些主要对象就是知识图谱中主要的对象类型。

图3 领域知识图谱构建和知识加工原理图

领域知识图谱构建的过程,就是分别将领域中的结构化数据、半结构化数据和非结构化加工成知识对象和关系的过程,针对三种类型的数据分别构建,构建后的文本类型和多媒体类型的对象,又可以通过人工或机器的方式进行知识加工,从中提取有价值的实体、事件和关系。图3显示的就是领域知识图谱构建和知识加工原理。

大数据技术发展非常快速,2012年在中国开始提出大数据,短短几年时间已经从一种高大上的技术变成了基础性的技术,各行各业都在使用大数据。但如何让大数据发挥更大价值,大家都把目光转向人工智能的时候,发现人工智能离自己实际使用有相当的距离,甚至无从下手。其实,先把大数据构建成自己领域的知识图谱,形成机器学习、模型训练的知识资源,正是通往人工智能的阶梯。


编者评点

本文的题目叫《知识降维作图谱 人工智能有阶梯》,初见这个题目,就感觉非常恰当,非常准确、非常得体。人工智能无疑是当前最热门的概念之一,如何实现人工智能,是我们人类一直的夙愿。但是,几十年来,人工智能学科的发展经历了数次起起伏伏,即使今天这个概念又一次火爆起来,我们也不敢盲目追捧,需要冷静对待,要真正的理解人工智能的难点,找到突破的方向,我想,本文从一个侧面给出了较好的解释和答案。我很欣赏作者在文中的如下阐述:“我们人类脑子里的知识结构非常复杂,其存储结构、关联思维、决策判断过程至今也无法完全研究明白”,所以,“只有我们把知识结构降维,形成一个计算机能看懂的结构,它的优势才能发挥。这样降维后形成的知识,基本上围绕着实体、实体的属性、实体之间的关系这三个要素展开,这种知识架构就是知识图谱”,由于知识图谱有效的关联了实体的结构化数据和非结构化数据,因此,我们把知识图谱看作大数据走向人工智能的阶梯。这个论断至少现在看上去是合理的。

知识图谱的产生和发展经历了多个阶段,从计算机领域引入本体论思想,到语义Web的提出,再到关联数据(Linked Data)的诞生,直到谷歌公司推出知识图谱,一路走来,理论基础逐渐扎实,领域工具逐渐丰富,应用前景逐渐明朗。

在知识图谱获得蓬勃发展的今天,我们经常把知识图谱分为通用知识图谱和领域知识图谱,在通用知识图谱的研究中,我们发现当前主流的通用知识图谱如DBpedia、YAGO和Freebase等都是国外的成果,因此迫切的需要国内的相关机构组织开发有代表性的中文通用知识图谱,这应该是一个艰巨的任务,但是我们必须要做,这可能会关系到将来中文人工智能的基础问题。在领域知识图谱的研究中,如何针对不同领域知识的特点,研究不同领域的知识抽取策略,提高知识抽取的自动化程度和准确率是我们关注的重点。随着知识图谱研究的深入,又演化出了事理图谱等新的概念,这些都值得我们关注。

我相信,知识图谱肯定不是终点,它会进一步演化、发展,既然我们找到了一条让机器理解、利用知识的有效途径,我们就应该在这条路上越走越远,去发现更加美好的风景。正如文章结尾所说,既然今天我们仍然“发现人工智能离实际使用有相当的距离,甚至无从下手”。那么就“先把大数据构建成自己领域的知识图谱,形成机器学习、模型训练的知识资源,正是通往人工智能的阶梯。

 | 冯建周

《联数》责任编委

CCF大数据专家委员会通讯委员

燕山大学副教授


作者回评

 | 臧根林

感谢冯建周教授的点评,点评很到位。谷歌、百度等企业研究的知识图谱属于通用知识图谱,主要用于智能检索、智能问答等,学术界研究的知识图谱也偏重于通用知识图谱,正是由于通用性,导致知识属性广泛,很难进行属性统计、智能计算等,而大量行业性应用需要的是领域知识图谱,不但知识可检索,还希望属性可统计、关系可计算。领域知识图谱需要很强的领域行业知识,不在该领域里面的人很难深入研究,我们希望学术界更多的研究领域知识图谱,这样更接地气。拓尔思长期专注于大数据和人工智能核心尖端技术的研发和创新应用,在人工智能、大数据、知识图谱、自然语言理解等领域始终处于先进水平,曾获得国家级科技奖。我们的研究提出了知识图谱负关系、时态关系等概念,都是和领域知识图谱特点紧密相关的。结合拓尔思的优势,在我们深耕应用超过20年的某些领域,构建成有特色的知识图谱,我们相信这可以成为提升行业人工智能应用的阶梯。


主编点评

 | 潘柱廷

       在大数据兴起的早期,有一个流行说法是“非结构化”数据。其实所谓非结构化数据即不是二维表结构数据,也不是常规数据库管理系统擅于处理的数据结构。

      其实所有的数据都是有结构的:非结构化的视频音频是完美的适合按照时间播放的结构;非结构化的社会关系是典型的图结构。

      也许面对所谓“非结构化”数据,应当改用一个新词汇——“适算结构”——适合计算的数据结构。所谓“非适算结构”就指最适合表达客观事物对象的那个结构,却不太适合在计算机进行采集、存储、处理、传输、展现。

      而知识图谱,作为原本一个典型的“非适算结构”,已经在技术和应用的共同努力下,逐步演化成了一个应用非常广泛的的“适算结构”。

文章来源:本文刊载于《中国信息化》杂志2019年第4期(2019年4月20日)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多