分享

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

 知行合一ing 2019-01-27

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

提到社交网络分析,推荐系统、风控模型这些名词,相信你并不陌生,社交网络分析无非是 Pandas+Matplotlib,推荐系统大概率是余弦相似性、协同过滤,风控则被 LR(逻辑回归)、XGBoost 这些成熟的模型占据。

但也许你不知道的是,看似相去甚远的社交网络分析、推荐系统、金融风险预测,都可以用网络挖掘的思想来实现。网络挖掘还可以应用到其他的领域,比如搜索引擎、知识图谱、城市计算等。

什么是网络挖掘

其实与一般意义上的数据挖掘/数据分析殊途同归,都是通过挖掘/分析方法,获取数据中的包含的信息和知识。

不同的是,一般意义的数据挖掘是通过算法模型(比如常用的回归、分类、聚类模型)进行描述/预测,网络挖掘则给出了新的解决方式。

通过将数据/问题抽象为网络模型,来帮助我们更好地进行数据分析/数据挖掘。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

为什么要抽象为网络模型?比如我们在一个社交网络中,通常我们怎么去寻找最具传播力的大V,一般来说无非把各个用户的粉丝数排个序。

而网挖掘的思路不太一样,我们可以通过构建用户相互关注的网络模型来寻找出大V,这里我们关注的是在信息传播中真正的影响力(很多时候,粉丝最多的,并不一定是最具传播力的)。

除此之外,我们还可以看到网络中不同的组群(比如不同爱好的群体)、分布的密度等等,这可以从宏观上去帮助我们分析整个数据样本中的关系。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

基于社交网络的组群发现

可以说网络挖掘在基本的描述性统计方面又更进了一步,从关键节点的识别到组群发现,从某种程度上,可以发现很多我们做一般的描述性分析所得不到的深刻洞见。

网络模型如何实现

网络挖掘无非是把问题抽象为网络的模型来进行分析,所以对于网络建模来说,我们主要是要去了解节点和连边。而对于节点的重要性,中心性则是关键的指标;对于节点间的关系,传递性和相似度有着重要的意义。

以及网络相似衡量指标:节点度数分布、聚类系数、平均路径长度等等。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

网络的节点和连边

当然更重要的是,在面对真实的问题或者数据的时候,如何将实际的问题抽象为网络模型,我们也称为问题形式化。

比如对于不同的领域,我们通常可以构建这样的一些网络。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

比如我们有这样一份数据(Stack Overflow 的用户技能数据),用技能间的连线的值表示技能之间的相关性权重。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

根据技能之间的关系,我们就可以构建如下网络模型,你看着这个网络很吓人,其实用networkx(Python库)来构建,也就是几行代码的事情。

推荐系统、风控模型、知识图谱,竟然都可以用网络挖掘来实现

通过这个网络模型我们就可以发现很多有意思的事情,比如苹果系的开发技能(ios/mac)是聚在一块,windows 系开发聚在一块,网页开发也是如此,这就是不同的社区。如果跟这些社区都有链接的,一定是一些相对通用的技能,比如 Linux、Git、Python 等。

当然,这只是网络模型探索的开始,后续还有很多有意思的问题(帮助我们发现更多知识,应用到不同的业务模型中):

  • 链路预测(最短路径)
  • 关键节点挖掘(寻找权威节点)
  • 网络遍历(搜索与检索)
  • 社区发现(组群画像)
  • 相似节点挖掘(相似性推荐)

网络挖掘的应用

网络挖掘在用户画像、商品推荐、金融风险评估、城市交通优化、流言信息传播等方面有着广泛的应用。很多业务用一般的数据挖掘方法效果不佳的,加入网络模型之后,却能大幅提升。可以说网络挖掘的应用舞台无限宽广……

网页排序

比如谷歌的 PageRank,本身也是在构建庞大的网页网络模型的基础上(网页为节点,超链为边),通过计算不同网页的中心度(权重),来对网页进行排序,从而实现更加精准的搜索和推荐。

社交网络分析

社交网络天然适合构建网络模型进行分析,比如信息的传播预测、影响力分析、社交组群发现、好友推荐、用户画像等等,单独拿出来看个体,和其他的个体拿出来看,发现一些不一样的东西。从某种程度说,社交网络分析是建立在网络模型分析的基础之上。

推荐系统

传统的协同过滤算法的基本思想是,将与目标用户选择相似性度较高的用户喜欢的商品,推荐给目标用户。而网络模型的加入(比如好友网络、商品网络),怎么可以很大程度上解决多样性问题、冷启动问题、社会推荐问题,从而提升某些场景下的推荐精度。

知识图谱

网络挖掘在知识图谱中也发挥着重要的作用,比如遍历与路径探寻、关键节点挖掘等。PatientsLikeMe.com 将病人、病症、医院、医生、药品等等医疗数据组织成知识图谱。在图谱上,医生可以搜索家族病史网络,查询相似病例及解决方案;病人可以搜索疾病相关的病症、药品、医生、相似病例等。

所以,网络挖掘其实是强化了数据分析/挖掘的技能,以一种全新的视角,探索更为全面、宏观的网络知识,以及个体之间的关系。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多