分享

一图胜万言:你不可不知的知识图谱

 网摘文苑 2017-01-12

世界是复杂关系的总和。在如今快速发展的互联网时代,数据量呈现出爆炸性的增长趋势,加之大数据挖掘技术使得数据之间的相关性变得更加容易,人们对世界的认知也越来越清晰。

早在2004年,Google创始人拉里·佩奇(Larry Page)和谢尔盖·布林Sergey Brin就曾预言,“搜索未来会成为人们大脑的一种活动,当你在想到一件不怎么清楚的事,它便会自动出现在你的脑海里”。

事实也如此,伴随着互联网时代网络信息的爆炸式增长,搜索引擎解决了人们快速定位问题范围的需求,现在已成为人们遨游信息海洋不可或缺的重要工具。

一图胜万言:你不可不知的知识图谱

然而,传统搜索也并非完美。通过关键词的输入,系统只是机械地比对查询词和网页之间的匹配关系,答案往往被包裹在记录问题的文档之中。一定程度上,搜索引擎并不知道用户要查询的是什么,“聪明度”还不够。

直到2012年5月,搜索引擎巨头Google在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。人们对世界的认知,进入了智能化的关系时代。

一、什么是知识图谱?

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。

一图胜万言:你不可不知的知识图谱

通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。

知识图谱将复杂的知识通过数据挖掘、信息处理、知识计量和图形绘制等一系列方式表现出来,揭示了知识领域的动态发展规律,知识图谱提供了从“关系”的角度去分析问题的能力。

二、知识图谱的前世今生

知识图谱的起源最早可追溯到文献计量学和科学计量学的诞生时期。

  • 1938年,Bernal制作了早期的学科图谱;

  • 1948年,Ellingham手工绘制了图表,形象地展示自然科学和技术分支学科间的关系;

  • 同年,美国科学家、科学计量学奠基人和情报科学创始人之一普赖斯用简单的曲线可视化科学知识指数增长规律。

到20世纪50年代,美国著名的情报学家和科学计量学家加菲尔德创制《科学引文索引》,以编年体形式手工绘制引文网络图谱;随后“文献耦合”、“科学引文网络”、“引文可视化”等相继被提出,科学知识可视化成为专门研究领域。

从20世纪末开始,随着计算机网络技术的迅猛发展,特别是信息可视化技术的突破,复杂网络系统和社会网络分析方法的引入,知识的数量、种类和结构呈快速发展之势。知识图谱受到基因图谱、信息可视化、GIS和超文本可视化发展的影响而被正式提出。

2010年,Google 收购了开放式数据库公司Metaweb,Metaweb主要研究将不同文字表述与同一个实体链接,并探索这些实体的熟悉以及彼此之间的联系,其主要信息来源是Freebase。这一收购事件为日后Google知识图谱的研究打下了基础。

到2012年5月,Google正式发布搜索页面的新功能——知识图谱,成为Google搜索引擎上线以来最大一次改革,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。

一图胜万言:你不可不知的知识图谱

现在Google数据库中包含超过5亿个事物,不同事物之间的关系超过35亿条。Google的“知识图谱”不仅仅会从Freebase、维基百科或全球概览中获得专业的信息,同时还通过大规模的信息搜索分析来提高搜索结果的深度和广度。

早在Google发布知识图谱搜索之前,知识图谱曾在国防安全方面打过一场漂亮的胜仗。2011年5月,「基地」组织首领奥萨马本·拉登在巴基斯坦阿伯塔巴德的一座豪宅里,被美国海军海豹部队第六分队突袭击毙。除了情报部门和军队力量持续不断的追寻,大数据和知识图谱也在追捕本拉登的行动中起到了决定性作用。

一图胜万言:你不可不知的知识图谱

作为美国目前估值最高的大数据公司,Palantir通过知识图谱,将挖掘到的纷乱数据(比如,也门极端主义教士的通话记录、与恐怖活动关联的银行账户)进行了关联,然后标记出可疑活动,最终帮助政府成功定位到了本拉登的藏身之所。

三、知识图谱在金融领域的应用

随着大数据时代的到来,各行各业使用数据的方式都发生了巨大的变化。特别是在金融领域方面,数据是异常重要的资源。一直以来,金融机构都在持续关注和研究如何突破既有数据的使用模式,以更加高效、精准、迅速地方式获取数据的更大价值。

基于关联关系的知识图谱概念,可以突破现有的关系型数据库的限制,在金融行业中释放数据的价值。接下来,我们主要看看知识图谱在金融领域的三大应用场景。

场景一:风控

基于银行金融领域的海量用户数据,通过知识图谱可以将客户、企业、行业间的有效数据进行关联,从行业关联的维度预测风险,提前进行风险控制。

当某一行业发生了行业风险或高风险事件,金融机构可以通过知识图谱及时预测未来有潜在风险的关联行业,从而可对相关行业的风险做出预判,尽早地发现并规避风险。

基于图挖掘分析技术,利用支持向量机、因子图等机器学习方法发现信贷风险传导模式。

一图胜万言:你不可不知的知识图谱

上图为关联关系图,A为违约客户,结合银行担保关系数据、资金流向数据等内部特征,以及企业基本属性、涉诉信息、舆情等外部特征,通过机器学习方法计算可得到A违约后B、C、D违约的概率,从而及时切断传播路径。

通过对行业和客户的知识图谱进行分析,可及时发现位于关联行业或者上下游的其他潜在风险客户。

场景二:精准营销

挖掘潜在客户一直是金融行业关注的一项重要应用,通过现有数据和外部数据精准、迅速地找到相关业务的潜在客户,对于银行业务的提升会起到较大助益。

通过大数据的挖掘采集,我们可以基于现有银行客户建立社交网络知识图谱,并根据不同的交往方式和频次定义图谱的关系模型。同时,还可以对客户的亲属、朋友、同事、同学等进行相关的社交挖掘,评估关系紧密度。通过用户的知识图谱关系,更加精准地分析客户行为,了解客户潜在需求,进行精准推送。

一图胜万言:你不可不知的知识图谱

比如,基于现有VIP客户,挖掘相关联系人及其爱好,或可以在现有客户中去发现具有共同爱好的一个组织,从而可以有针对性地对某一部分或一类人群制定营销策略,大大提升营销的精准性和有效性。

场景三:反欺诈

近年来,金融欺诈的形式呈多样化发展的趋势,提供虚假资料,团伙欺诈,内外勾结等欺诈手段层出不穷,不少欺诈案件涉及到复杂的关系网络,这都给银行等金融机构的欺诈审核带来了新的挑战。

在此情况下,传统通过单点突破进行反欺诈的方法已经远远不够。基于大数据的反欺诈,可以通过对用户数据的采集和分析,建立企业级客户在资金链、法人、上下游投资、相似企业业务等关系上的知识图谱,挖掘出欺诈者数据的矛盾点和可疑点,从而识别、预防欺诈事件的发生。

一图胜万言:你不可不知的知识图谱

图为海致企业知识图谱对“中晋系”的图谱分析

知识图谱作为关系的直接表示方式,可将不同渠道的碎片化、异构数据整合成为机器可以理解的知识,借助规则引擎,帮助金融机构更有效地分析复杂关系中存在的潜在风险。

结语:

物理学大师约翰·惠勒说:“万物源于比特。”自人类发明符号以来,世界正逐步成为一个巨大的信息场。然而信息并不等同于知识,更不意味着智慧。如何从信息中发现知识?如何发掘出知识之间的关联?如何从知识的关联之中涌现出智慧?这正是海致的数据科学家们正在孜孜探索的领域。

本文为头条号作者发布,不代表今日头条立场。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多