分享

「回顾」金融知识图谱的应用与探索

 yh18 2018-12-04

「回顾」金融知识图谱的应用与探索


张秋剑 星环科技 金融事业部总监

内容来源:

AI 先行者大会《金融知识图谱的应用与探索》


「回顾」金融知识图谱的应用与探索


今天的分享分为以下几个部分,知识图谱的实现基础、理论基础和技术基础,还包括三个案例,跟金融都是相关的。

「回顾」金融知识图谱的应用与探索


首先讲的是实现基础,这个时间轴贯穿于知识图谱的前世今生,发展到今天大概50-60年,其中最早诞生的是语义网络。语义网络可以理解为,现存的词汇都是可以串联起来的,比如说“麻雀是鸟,朱鹮也是一种鸟,朱鹮又是国家一级保护动物,一级国家保护动物包括扬子鳄、大熊猫。大熊猫本身又是哺乳动物。”这样就可以对某一领域的知识甚至是全领域的知识,可以通过网络的方式进行链接,这样就构建了一个语义网络,它是对知识表示的奠基。

到了80年代,人工智能领域又把哲学中的本体论引入进来,刚才讲到的“麻雀”、“鸟”和“朱鹮”等等,需要标识哪些是主体,这样就引进了本体论。接下来互联网的诞生,从万维网诞生到超文本的链接,像维基百科,使得互联网把数据链接起来,出现了数据链接这样非常重要的跨越。

这样非常重要的三段历程,语义网络本体论,以及从文本链接到数据链接,成为构成知识网络的基础。Google在2012年推出了全世界第一款知识图谱的产品。

「回顾」金融知识图谱的应用与探索


google对于知识图谱有一个非常重要的定义,things not strings。过去人们通过搜索引擎获取大量信息,其中相当多是我们不想要的,当然也包括广告,甚至有一些噪音。比如搜索“贵州茅台”,实际上关注的是这只股票,希望在检索的时候更精准的告诉我们想要的,不要有太多臃肿的知识。Google在自己的知识图谱里就是这样去构建的。ppt右下角,在检索贵州茅台,会有一个简单的知识库的总结,包括实时股价,归属,总资产规模,包括子公司等等。更加精准定义我们想要的东西,展现字符串背后隐含的对象和事物。我们的目标就是洞察语义。

「回顾」金融知识图谱的应用与探索


简单回顾了历史,讲了一下知识图谱的实现基础,接下来回顾知识图谱的理论基础。知识图谱中很重要的一点就是知识,知识从何而来。过去知识的获取主要有三种方式。第一种是进化,更多的是人与自然的互驯,在相互驯化的过程中,适者生存,把最先进的知识传承下去。第二种是经验,经验是日常生活中司空见惯的方式,例如“一朝被蛇咬,十年怕井绳”,这就是一个典型的经验。第三种是文化传承,从古代的图腾到近现代的文字、书籍和影像资料等,更广泛的让我们获取知识和传承知识的方式。

「回顾」金融知识图谱的应用与探索


到了近现代,除了前三种方式之外,又有了计算机这种新的方式,计算机能帮我们获取知识、存储知识、传播知识、理解知识。理解知识就是广义上讲的机器学习,包括人工智能。

「回顾」金融知识图谱的应用与探索


在计算机去发现知识的方向,过去被广泛研究的主要是五种方式。第一种方式是填补现有知识的空白,比如填字游戏,根据字母的排列关系把答案填补上去。第二种方式是模仿大脑,例如现在比较火的神经网络,用机器去构建神经元。第三种方式是模拟进化,主要用在机器人的领域,让机器人通过自学习自迭代的方式去成长。第四种方式是系统性的减少不确定性,说白了就是统计学,ppt右上角是典型的贝叶斯定理。第五种方式是注意新旧知识之间的相似性,类似svm,精准的去找到一个二分类的方法。

「回顾」金融知识图谱的应用与探索


做一下总结,发现知识有五种方式,相对应的是五大学派。统计学就是贝叶斯学派,svm就是类推学派,模拟进化就是进化生物学学派,模仿大脑的就是联结学派,神经网络分支。填补现有知识空白是符号学派。其中的理论依据,还是根据基础学科去做借鉴,比如说统计学、心理学、生物学、脑科学和哲学,同样用到了很多算法,比如贝叶斯分类器,内推学派主要是svm内核机,进化学派主要是遗传编码,神经学派主要是反向传播,符号学派是逆向演绎。

对应的应用场景,统计学用在风险控制的场景,支持向量机用在推荐类的场景,生物学主要是机器人场景,神经网络用在深度学习,符号学派有很多专家系统的应用。

「回顾」金融知识图谱的应用与探索


关于五大学派,有一本书叫终极算法,不同的学派在某个领域去解决不同的问题,有没有一种终极算法把这五个合并在一起?可以参考下这本书。

「回顾」金融知识图谱的应用与探索


五个学派,模仿人的大脑,模仿人的心,模仿人的智。其实知识图谱关注的是人类的语言思考以及推理,如何通过机器的方式来实现,构成了知识图谱的理论基础。

「回顾」金融知识图谱的应用与探索


刚讲了理论基础,这里讲讲技术,这里用了 nlp的图片,知识图谱主要还是在自然语言处理的领域。

「回顾」金融知识图谱的应用与探索


这是我总结的知识图谱全栈,从底层到上层有四层。

最底层是理论层,理论层就是刚才提到的几个比较关键的点,比如说本体论、语义网络、语义超链接、数据链接以及知识库。

在数据层,举例的都是一些通用的数据源,比如说freebase,这个是google收购了,knowledge vault,这个是google开放的知识图谱库,包括维基数据,imagenet等,这些都是公开的,大家从网上能够查到。

实现层,大概分成六个步骤,分别是知识获取、知识抽取、知识融合、知识存储、知识推理、知识建模和知识发现,知识获取是获取外部数据的方式,包括爬虫和实时入库的技术方法;知识抽取就是,对三元组进行知识的抽取,包括实体抽取、关系抽取和属性的抽取;知识融合就是,抽取出来之后,存在很多的数据冗余和噪声,要去做实体的消歧,数据的整合;知识存储,刚才讲了,实际是要构建一个三元组RDF的数据结构,如果把所有的顶点和边构造出来之后,要对他进行图数据库的存储;知识推理,刚才也讲到了,如果要做一些深层次的知识问答,就要做很多的训练,无论有监督的还是半监督的;知识建模更多的是去理解语义,涉及到属性的映射,实体的连接;知识发现,两大主要的应用是知识的检索和知识的问答。这些构建了知识图谱的实现层。

再往上就是应用领域,大概分成两个方向,一个是通用领域,比如搜索引擎、机器人和物联网等等。在专业领域基本都是行业,例如交通、能源、金融,包括医疗健康。

「回顾」金融知识图谱的应用与探索


刚才讲的是技术的全栈,这里是解决方案构建的实现路径。首先就是知识的采集和获取。现在的数据无非两块,内部数据和外部数据。对于外部数据,入库后要做知识的抽取,主要是对三元组的抽取,实体关系和属性的抽取。对抽取的知识可以去构建一个简单的搜索引擎应用。把自然语言处理结合进来之后,就要对知识进行消岐和补全,如果有一些行业属性数据,要从这里去做补全。融合之后的数据,首先放在类似ES的存储里边,通过知识表示,一方面去构建搜索引擎,再一个就是结合知识推理,对知识问答类的应用去产品化,例如siri、微软小冰和小米音箱。在知识推理这块,更多的用到了符号学和类推学的算法去实现。对知识表示化后的数据进行深加工,去做关系抽取、属性映射、实体连接,可以把顶点和边全部结构化,存储在图数据库里。构建了自己的图数据库,可以为行业做一些专用的知识图谱,比如企业族谱、证券的智能投研和监管科技。

「回顾」金融知识图谱的应用与探索


刚才提到了知识图谱的一些数据源,这里也摘录了一些信息,比如freebase,Google的knowledge vault等。

「回顾」金融知识图谱的应用与探索


刚才讲了知识图谱的构建步骤,对几个比较抽象的步骤做展开。第一个就是知识抽取,知识抽取就是自然语言理解和知识表示的结合。刚才提到了自然语言处理两个非常重要的步骤,第一个就是文本的预处理,涉及到数据的清理、降噪、数据的集成、数据的离散化;第二个步骤,就是做分词、做标注,更深入一点的是做语法的解析和依存度的解析,这个层面实现后做三元组的抽取。把关系、实体和属性抽取出来。再后边就是知识表示,实现关系、实体和属性之间的关联,构建三元组。

「回顾」金融知识图谱的应用与探索


刚才多次提到三元组,到底什么是三元组,一部分是一些概念、实体、语义、内容、属性。 我们对于语言的理解,主要还是通过主谓宾的方式去构建,主谓宾就是典型的一个三元组,把它应用到知识图谱就是RDF。RDF有非常多的构建方式,下面举了两种例子。一种是实体、关系、实体的方式,一种是实体、属性、属性值的方式。举个例子,某某法人京东,构建了一个非常简单的三元组,可以理解某某是京东的法人。

「回顾」金融知识图谱的应用与探索


举一个小的案例,这是我们帮一个券商做的企业族谱,如何把上市公司任职的高管关系全部遍历出来,从源数据库抽取三张表,分别是高管信息表、任职表、公司信息表。这样就可以把对应的高管字段、高管任职的字段以及所在的公司属性字段抽取出来,构建成高管任职关系的三元组。

「回顾」金融知识图谱的应用与探索


某某和所有有资金关联的公司,全部都在上面,有些是法人关系,有些是财务投资,有些是并购,有些是控股。

「回顾」金融知识图谱的应用与探索


这是我们帮券商做的应用,每个人都有自己的股票app,当我们去购买某一个个股的时候,个股对应的公司所在的行业,对应的关联公司,以及个股所在的板块,板块对应的上市公司个股,都可以构建为知识图谱通过app推送给客户。假设用户购买的是“苏宁云商”个股,可以看到行业属性里,会把“京东”个股关联进来,它们都属于互联网电商行业。“苏宁”物流这块就会跟顺丰关联起来。“苏宁”本身所处的板块有家电背景,会跟美的、格力关联,蓝色的是关联公司,橙色的是产品,绿色的是上游,棕色的是下游。

「回顾」金融知识图谱的应用与探索


前面讲了知识抽取和知识表示,这里简单讲一下图数据库。最近两年图数据库非常火,像neo4j、Stellardb、GraphX、TITAN、OrientDB。图数据库是知识图谱非常重要的技术架构,对图数据库的存储、检索要求越来越高,希望更多去兼容sql语法。现在很难去构建多层属性,更多的去平铺,平铺开之后有个问题,点和边会非常的多,现在遇到一些案例,上百亿个点,上千亿条边。海量的数据,计算引擎怎么设计,比方说现在比较好的分布式计算架构是不是能更好的去优化,包括点边是否能实现增删改查,对图的遍历能否做到秒级返回,这是我们关注的一些点。

「回顾」金融知识图谱的应用与探索


这里对图数据库的存储结构做简单的展示,目前主流的图数据库是通过RDF的方式去构建,GraphX把顶点和边分别存储,属性和属性值和点边产生依赖。TITAN把顶点、边和属性全部拆分开去构建。Neo4j是RDF去构建,通过指针跳转的方式去连接,各有千秋。

「回顾」金融知识图谱的应用与探索


最后一部分讲下案例,今天来的很多讲师来自一线互联网公司,更多关注的是搜索引擎和知识问答这些方面,星环是专门做企业级市场的公司,更多关注的是企业级知识图谱。

「回顾」金融知识图谱的应用与探索


第一个例子是银行的案例,银行信贷里担保链的分析。用户检索出目前某一个授信企业客户目前的信贷状况,可以看到信贷的不良率、是否有违约以及逾期的状况,这是一个非常基础的信息报表的展示。当我们发现该企业有疑点的时候,就可以去检查它某一次的授信里面的关联关系。比如该次授信,企业的担保人是不是存在一些问题。右边的知识图谱中,红色是我们查阅的实体,实体与它产生的担保关系就可以全部遍历出来,和给该企业做担保的上级是否存在担保关系。这样全部都能遍历出来,在遍历出来的图谱可以看到企业是不是存在闭环,或者出现双向或者交叉的图形。在过去,人工的方式很难做到,尤其一些体量比较大的银行,企业的经营范围面向全国的时候。目前构建企业担保类的知识图谱非常快,遍历一个大企业能做到小时级。

「回顾」金融知识图谱的应用与探索


这是一个监管科技的应用,这是我们帮银监会去做的案例,在福建省银监做的银监眼的案例。福建省有七个地市,抓一些关键性的监控指标,比如存款指标、贷款指标以及不良率的指标、流动性指标 。这是一个应急看板,可以看到有一些关键性的数据,比方说不良率、地区的存款分布、房产贷款,横坐标是地市。

「回顾」金融知识图谱的应用与探索


检索是相对比较复杂的,有疑点提示,指标概览,当我们去关注某一个疑点的时候,可以做一些筛选,像资金流向、资金空转、失信被执行等监管科技比较关心的指标,当我们去筛选的时候,把有疑点的一些企业和客户抓取出来。

「回顾」金融知识图谱的应用与探索


深入点击进去之后,就可以对该企业形成关系图谱,或者叫对公客户的客户画像。比方跟该企业相关联的交易关系,可以通过知识图谱展示出来。空心就是实体,绿色就是跟企业产生交易的,全部都是有向图,箭头指向就是交易的流向。

「回顾」金融知识图谱的应用与探索


第三个案例是证券,帮券商去构建的投研平台,当去搜索个股的时候,除了个股F10的信息之外,还会有研报信息和新闻热点信息都可以在看板展示。在左下方,帮助个股构建了四类图谱,第一个是公司图谱,主要对企业内部,跟企业相关的高管、法人以及股东关系。

「回顾」金融知识图谱的应用与探索


产业链图谱,包括物流、家电、电商等。还有所处行业都会做展示。

「回顾」金融知识图谱的应用与探索


跟投资相关会比较关注热度,第一个就是情感分析,比如雪球指数、新浪、股吧。红色表示反向,蓝色表示中性,绿色表示正向。

右边是情感走势,可以看到个股在每一个互联网平台热度的变化。这样就是智能投研的知识图谱。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多