「回顾」金融知识图谱的应用与探索

yh18 2018-12-04

展开全文

「回顾」金融知识图谱的应用与探索

张秋剑星环科技金融事业部总监
内容来源：
AI 先行者大会《金融知识图谱的应用与探索》

「回顾」金融知识图谱的应用与探索

今天的分享分为以下几个部分，知识图谱的实现基础、理论基础和技术基础，还包括三个案例，跟金融都是相关的。

「回顾」金融知识图谱的应用与探索

首先讲的是实现基础，这个时间轴贯穿于知识图谱的前世今生，发展到今天大概50-60年，其中最早诞生的是语义网络。语义网络可以理解为，现存的词汇都是可以串联起来的，比如说“麻雀是鸟，朱鹮也是一种鸟，朱鹮又是国家一级保护动物，一级国家保护动物包括扬子鳄、大熊猫。大熊猫本身又是哺乳动物。”这样就可以对某一领域的知识甚至是全领域的知识，可以通过网络的方式进行链接，这样就构建了一个语义网络，它是对知识表示的奠基。

到了80年代，人工智能领域又把哲学中的本体论引入进来，刚才讲到的“麻雀”、“鸟”和“朱鹮”等等，需要标识哪些是主体，这样就引进了本体论。接下来互联网的诞生，从万维网诞生到超文本的链接，像维基百科，使得互联网把数据链接起来，出现了数据链接这样非常重要的跨越。

这样非常重要的三段历程，语义网络本体论，以及从文本链接到数据链接，成为构成知识网络的基础。Google在2012年推出了全世界第一款知识图谱的产品。

「回顾」金融知识图谱的应用与探索

google对于知识图谱有一个非常重要的定义，things not strings。过去人们通过搜索引擎获取大量信息，其中相当多是我们不想要的，当然也包括广告，甚至有一些噪音。比如搜索“贵州茅台”，实际上关注的是这只股票，希望在检索的时候更精准的告诉我们想要的，不要有太多臃肿的知识。Google在自己的知识图谱里就是这样去构建的。ppt右下角，在检索贵州茅台，会有一个简单的知识库的总结，包括实时股价，归属，总资产规模，包括子公司等等。更加精准定义我们想要的东西，展现字符串背后隐含的对象和事物。我们的目标就是洞察语义。

「回顾」金融知识图谱的应用与探索

简单回顾了历史，讲了一下知识图谱的实现基础，接下来回顾知识图谱的理论基础。知识图谱中很重要的一点就是知识，知识从何而来。过去知识的获取主要有三种方式。第一种是进化，更多的是人与自然的互驯，在相互驯化的过程中，适者生存，把最先进的知识传承下去。第二种是经验，经验是日常生活中司空见惯的方式，例如“一朝被蛇咬，十年怕井绳”，这就是一个典型的经验。第三种是文化传承，从古代的图腾到近现代的文字、书籍和影像资料等，更广泛的让我们获取知识和传承知识的方式。

「回顾」金融知识图谱的应用与探索

到了近现代，除了前三种方式之外，又有了计算机这种新的方式，计算机能帮我们获取知识、存储知识、传播知识、理解知识。理解知识就是广义上讲的机器学习，包括人工智能。

「回顾」金融知识图谱的应用与探索

在计算机去发现知识的方向，过去被广泛研究的主要是五种方式。第一种方式是填补现有知识的空白，比如填字游戏，根据字母的排列关系把答案填补上去。第二种方式是模仿大脑，例如现在比较火的神经网络，用机器去构建神经元。第三种方式是模拟进化，主要用在机器人的领域，让机器人通过自学习自迭代的方式去成长。第四种方式是系统性的减少不确定性，说白了就是统计学，ppt右上角是典型的贝叶斯定理。第五种方式是注意新旧知识之间的相似性，类似svm，精准的去找到一个二分类的方法。

「回顾」金融知识图谱的应用与探索

做一下总结，发现知识有五种方式，相对应的是五大学派。统计学就是贝叶斯学派，svm就是类推学派，模拟进化就是进化生物学学派，模仿大脑的就是联结学派，神经网络分支。填补现有知识空白是符号学派。其中的理论依据，还是根据基础学科去做借鉴，比如说统计学、心理学、生物学、脑科学和哲学，同样用到了很多算法，比如贝叶斯分类器，内推学派主要是svm内核机，进化学派主要是遗传编码，神经学派主要是反向传播，符号学派是逆向演绎。

对应的应用场景，统计学用在风险控制的场景，支持向量机用在推荐类的场景，生物学主要是机器人场景，神经网络用在深度学习，符号学派有很多专家系统的应用。

「回顾」金融知识图谱的应用与探索

关于五大学派，有一本书叫终极算法，不同的学派在某个领域去解决不同的问题，有没有一种终极算法把这五个合并在一起？可以参考下这本书。

「回顾」金融知识图谱的应用与探索

五个学派，模仿人的大脑，模仿人的心，模仿人的智。其实知识图谱关注的是人类的语言思考以及推理，如何通过机器的方式来实现，构成了知识图谱的理论基础。

「回顾」金融知识图谱的应用与探索

刚讲了理论基础，这里讲讲技术，这里用了 nlp的图片，知识图谱主要还是在自然语言处理的领域。

「回顾」金融知识图谱的应用与探索

这是我总结的知识图谱全栈，从底层到上层有四层。

最底层是理论层，理论层就是刚才提到的几个比较关键的点，比如说本体论、语义网络、语义超链接、数据链接以及知识库。

在数据层，举例的都是一些通用的数据源，比如说freebase，这个是google收购了，knowledge vault，这个是google开放的知识图谱库，包括维基数据，imagenet等，这些都是公开的，大家从网上能够查到。

实现层，大概分成六个步骤，分别是知识获取、知识抽取、知识融合、知识存储、知识推理、知识建模和知识发现，知识获取是获取外部数据的方式，包括爬虫和实时入库的技术方法；知识抽取就是，对三元组进行知识的抽取，包括实体抽取、关系抽取和属性的抽取；知识融合就是，抽取出来之后，存在很多的数据冗余和噪声，要去做实体的消歧，数据的整合；知识存储，刚才讲了，实际是要构建一个三元组RDF的数据结构，如果把所有的顶点和边构造出来之后，要对他进行图数据库的存储；知识推理，刚才也讲到了，如果要做一些深层次的知识问答，就要做很多的训练，无论有监督的还是半监督的；知识建模更多的是去理解语义，涉及到属性的映射，实体的连接；知识发现，两大主要的应用是知识的检索和知识的问答。这些构建了知识图谱的实现层。

再往上就是应用领域，大概分成两个方向，一个是通用领域，比如搜索引擎、机器人和物联网等等。在专业领域基本都是行业，例如交通、能源、金融，包括医疗健康。

「回顾」金融知识图谱的应用与探索

刚才讲的是技术的全栈，这里是解决方案构建的实现路径。首先就是知识的采集和获取。现在的数据无非两块，内部数据和外部数据。对于外部数据，入库后要做知识的抽取，主要是对三元组的抽取，实体关系和属性的抽取。对抽取的知识可以去构建一个简单的搜索引擎应用。把自然语言处理结合进来之后，就要对知识进行消岐和补全，如果有一些行业属性数据，要从这里去做补全。融合之后的数据，首先放在类似ES的存储里边，通过知识表示，一方面去构建搜索引擎，再一个就是结合知识推理，对知识问答类的应用去产品化，例如siri、微软小冰和小米音箱。在知识推理这块，更多的用到了符号学和类推学的算法去实现。对知识表示化后的数据进行深加工，去做关系抽取、属性映射、实体连接，可以把顶点和边全部结构化，存储在图数据库里。构建了自己的图数据库，可以为行业做一些专用的知识图谱，比如企业族谱、证券的智能投研和监管科技。

「回顾」金融知识图谱的应用与探索

刚才提到了知识图谱的一些数据源，这里也摘录了一些信息，比如freebase，Google的knowledge vault等。

「回顾」金融知识图谱的应用与探索

刚才讲了知识图谱的构建步骤，对几个比较抽象的步骤做展开。第一个就是知识抽取，知识抽取就是自然语言理解和知识表示的结合。刚才提到了自然语言处理两个非常重要的步骤，第一个就是文本的预处理，涉及到数据的清理、降噪、数据的集成、数据的离散化；第二个步骤，就是做分词、做标注，更深入一点的是做语法的解析和依存度的解析，这个层面实现后做三元组的抽取。把关系、实体和属性抽取出来。再后边就是知识表示，实现关系、实体和属性之间的关联，构建三元组。

「回顾」金融知识图谱的应用与探索

刚才多次提到三元组，到底什么是三元组，一部分是一些概念、实体、语义、内容、属性。我们对于语言的理解，主要还是通过主谓宾的方式去构建，主谓宾就是典型的一个三元组，把它应用到知识图谱就是RDF。RDF有非常多的构建方式，下面举了两种例子。一种是实体、关系、实体的方式，一种是实体、属性、属性值的方式。举个例子，某某法人京东，构建了一个非常简单的三元组，可以理解某某是京东的法人。

「回顾」金融知识图谱的应用与探索

举一个小的案例，这是我们帮一个券商做的企业族谱，如何把上市公司任职的高管关系全部遍历出来，从源数据库抽取三张表，分别是高管信息表、任职表、公司信息表。这样就可以把对应的高管字段、高管任职的字段以及所在的公司属性字段抽取出来，构建成高管任职关系的三元组。

「回顾」金融知识图谱的应用与探索

某某和所有有资金关联的公司，全部都在上面，有些是法人关系，有些是财务投资，有些是并购，有些是控股。

「回顾」金融知识图谱的应用与探索

这是我们帮券商做的应用，每个人都有自己的股票app，当我们去购买某一个个股的时候，个股对应的公司所在的行业，对应的关联公司，以及个股所在的板块，板块对应的上市公司个股，都可以构建为知识图谱通过app推送给客户。假设用户购买的是“苏宁云商”个股，可以看到行业属性里，会把“京东”个股关联进来，它们都属于互联网电商行业。“苏宁”物流这块就会跟顺丰关联起来。“苏宁”本身所处的板块有家电背景，会跟美的、格力关联，蓝色的是关联公司，橙色的是产品，绿色的是上游，棕色的是下游。

「回顾」金融知识图谱的应用与探索

前面讲了知识抽取和知识表示，这里简单讲一下图数据库。最近两年图数据库非常火，像neo4j、Stellardb、GraphX、TITAN、OrientDB。图数据库是知识图谱非常重要的技术架构，对图数据库的存储、检索要求越来越高，希望更多去兼容sql语法。现在很难去构建多层属性，更多的去平铺，平铺开之后有个问题，点和边会非常的多，现在遇到一些案例，上百亿个点，上千亿条边。海量的数据，计算引擎怎么设计，比方说现在比较好的分布式计算架构是不是能更好的去优化，包括点边是否能实现增删改查，对图的遍历能否做到秒级返回，这是我们关注的一些点。

「回顾」金融知识图谱的应用与探索

这里对图数据库的存储结构做简单的展示，目前主流的图数据库是通过RDF的方式去构建，GraphX把顶点和边分别存储，属性和属性值和点边产生依赖。TITAN把顶点、边和属性全部拆分开去构建。Neo4j是RDF去构建，通过指针跳转的方式去连接，各有千秋。

「回顾」金融知识图谱的应用与探索

最后一部分讲下案例，今天来的很多讲师来自一线互联网公司，更多关注的是搜索引擎和知识问答这些方面，星环是专门做企业级市场的公司，更多关注的是企业级知识图谱。

「回顾」金融知识图谱的应用与探索

第一个例子是银行的案例，银行信贷里担保链的分析。用户检索出目前某一个授信企业客户目前的信贷状况，可以看到信贷的不良率、是否有违约以及逾期的状况，这是一个非常基础的信息报表的展示。当我们发现该企业有疑点的时候，就可以去检查它某一次的授信里面的关联关系。比如该次授信，企业的担保人是不是存在一些问题。右边的知识图谱中，红色是我们查阅的实体，实体与它产生的担保关系就可以全部遍历出来，和给该企业做担保的上级是否存在担保关系。这样全部都能遍历出来，在遍历出来的图谱可以看到企业是不是存在闭环，或者出现双向或者交叉的图形。在过去，人工的方式很难做到，尤其一些体量比较大的银行，企业的经营范围面向全国的时候。目前构建企业担保类的知识图谱非常快，遍历一个大企业能做到小时级。

「回顾」金融知识图谱的应用与探索

这是一个监管科技的应用，这是我们帮银监会去做的案例，在福建省银监做的银监眼的案例。福建省有七个地市，抓一些关键性的监控指标，比如存款指标、贷款指标以及不良率的指标、流动性指标。这是一个应急看板，可以看到有一些关键性的数据，比方说不良率、地区的存款分布、房产贷款，横坐标是地市。

「回顾」金融知识图谱的应用与探索

检索是相对比较复杂的，有疑点提示，指标概览，当我们去关注某一个疑点的时候，可以做一些筛选，像资金流向、资金空转、失信被执行等监管科技比较关心的指标，当我们去筛选的时候，把有疑点的一些企业和客户抓取出来。

「回顾」金融知识图谱的应用与探索

深入点击进去之后，就可以对该企业形成关系图谱，或者叫对公客户的客户画像。比方跟该企业相关联的交易关系，可以通过知识图谱展示出来。空心就是实体，绿色就是跟企业产生交易的，全部都是有向图，箭头指向就是交易的流向。

「回顾」金融知识图谱的应用与探索

第三个案例是证券，帮券商去构建的投研平台，当去搜索个股的时候，除了个股F10的信息之外，还会有研报信息和新闻热点信息都可以在看板展示。在左下方，帮助个股构建了四类图谱，第一个是公司图谱，主要对企业内部，跟企业相关的高管、法人以及股东关系。

「回顾」金融知识图谱的应用与探索

产业链图谱，包括物流、家电、电商等。还有所处行业都会做展示。

「回顾」金融知识图谱的应用与探索

跟投资相关会比较关注热度，第一个就是情感分析，比如雪球指数、新浪、股吧。红色表示反向，蓝色表示中性，绿色表示正向。