分享

朝阳35处| 概率图模型在风控中的应用

 kieojk 2016-08-22

8月3日,中国互联网络信息中心发布的第38次《中国互联网络发展状况统计报告》显示:我国互联网网民规模已达7.1亿,其中互联网金融理财用户首次超过1亿。与2014年12月底的7849万的数据相比,接近30%的高速增长令世界瞩目。然而,随着互联网金融用户数量飞速增长的同时,大量的网贷机构、P2P也暴露出风控不严、坏账率过高的问题。互联网金融风控,尤其是线上大数据风控已经成为行业亟待提升的关键环节。平安集团旗下的前海征信,依托平安集团大数据和海量外部数据,致力于提供大数据反欺诈、风控、催收等全流程解决方案,目前已在大数据金融风控建模中积累了许多宝贵的经验。下面,就有请前海征信 “朝阳35处”以征信评分中常见问题为引,带领大家了解一下在一个统一的概率图框架下如何优雅的、创新性的建立个人征信评分模型。



大数据之殇:数据缺失与共线性



与传统征信中心采用上报数据不同,在大数据征信领先企业——如ZestFinance, Ondeck以及前海征信——的风控建模实践中,都使用了来自申请书填报、政府数据与征信报告、网站和手机APP采集、与其他企业合作、互联网公开信息等多个数据源的数据,体现出了维度特别高、来源特别广、数据结构特别杂的大数据特征。使用来自多种数据源的聚合数据(data-fusion)的方法,在引入更多、更全面信息的同时,也天然地带来了两大问题:大量数据缺失、以及数据间相关性太强,最后往往导致了过拟合的问题。



一方面,如果我们有来源于两个不同的数据来源,由于不同数据源的覆盖人群不一样,在数据拼接在一起的时候,没有同时被两个数据源观测到的人群(经常是大部分的人群)在另一数据源的变量天然地全部缺失。而一旦关键变量有缺失,在逻辑回归这一类线性模型中,便会极大地影响模型效果。甚至有人认为:大数据风控最重要的问题,就是处理多源数据带来的数据缺失问题。


尤其需要注意的是,这种缺失通常不属于随机缺失,不恰当的处理都有可能降低模型效果。传统的金融建模中,关键变量的缺失,如无信用记录、没有购房记录,可以将缺失本身做成0-1虚拟变量乘以负权重进入逻辑回归模型,这和控制风险的业务需要相符。但是大数据评分中,数据维度被拓展到包含互联网行为数据等等的非金融数据。如果仅仅因为客户在某个业务上没有数据就降低评分,那么征信评分很可能会变成“会员分”,即使用业务越多的客户具有更高的评分。这与用更多信息客观评分的初衷完全背道而驰,也有极大可能导致数据上的过度拟合而降低样本外的模型效果,最终给采信的贷款机构带来损失。

另一方面,金融的本质决定了大数据领域模型中变量的个数往往远远超过征信评分这一问题的本征维度。多个源的数据之间、同数据源不同变量之间,可能有显著的简单线性相关性或者更高阶的共线性。机器学习通常的做法是使用Regularized方法,限制模型的复杂度。但是,金融风控建模的样本数量往往不足以分出足够的验证集调整合适的超参数,由于有效样本的不足,模型效果随着变量数量提升有限,空有数万个变量,能用上的却缈缈无几。


共线性带来更严重的问题是伪相关。数据的因果性和相关性一直以来都是世界级难题,这一问题在海量变量的大数据环境下尤为突出。迈尔舍恩伯格在《大数据时代》里说,“要相关,不要因果。”这句话,在以效率取胜的推荐问题和营销问题上可能是有效的。因为推荐问题和营销问题都是对准确度要求很低的模型,注重模型的快速迭代,在很短的时间内可以驱动业务收入提升。然而,如果在风控建模也使用同样的观念,则可能会带来极大的问题。试想一下,超市可以把啤酒和尿布放在一起,能获得协同效应是最好,但是即便没有利润的提升也无伤大雅;然而如果因为巧克力销量和幸福指数相关,一个国家就大力扶植巧克力行业那就有点不负责任了。类似的,如果类别A的客户恰好平均的每月信用卡额度使用比例较高,如果另一个客户没有观测到信用卡使用情况,这个时候因为单纯同属于类别A就获得一个较低评分是不科学的。比起新潮的机器学习算法,在生物统计、物理上已经证明卓有成效的统计推断在大数据风控中更为重要。




概率图模型在风控中的应用



面对缺失数据和数据间高度相关的问题,传统做法是首先使用不同的填充方法,如中值/众数直接填充,或者使用回归模型/C4.5/热卡/KMeasn模型来建模填充,最后进行PCA或者变量选择降维。这一方案的效果并不尽如人意,主要的问题在于填充的时候,这些方法都只能给出似然概率最高的单一估计,而后续的建模中往往无法将数据本身的准确度放入模型,填充数据的偏差可能会淹没变量本身的信号,反而降低了模型效果。


贝叶斯与贝叶斯理论


因此,在综合考虑数据有缺失、数据相关性、因果分析等方面的问题,我的经验是选择基于贝叶斯理论,将针对连续数据的概率主成分分析(Probabilistic Principle Componets Analysis, PPCA)和针对离散数据的贝叶斯网络(Bayesian Network)方法结合为概率图模型,打造统一的风控模型,在模型解释性、模型预测能力上以求达到最佳的平衡。

图1


概率PCA方法与PCA方法类似,是一种变换(Transform)方法,即将多维数据进行函数映射(而非简单多选一)到低维平面。传统的PCA方法无法处理缺失数据,而概率PCA作为一种适用于缺失数据情况下的特征提取方法,特别适用于征信风控这一问题。那么什么是概率PCA呢?我们首先回归一下PCA方法:当我们手上有p维的数据,通过求取这p维数据的协方差矩阵,得到协方差矩阵的特征根和特征向量,根据特征值最大排序取前k个(k<>< span=''><>

图2


贝叶斯网络本身就是一种有向无环的概率图模型,适用于离散变量,用变量间的相关性,构建变量间的决定网络。图2中,每一个结点表示一个变量,每一条边表示变量间相关。比如,x5的分布取决于x1和x3的取值,而x5确定以后,又会影响x7的取值。x1到x7七个变量,可以联立写一个长长的联合分布函数,在部分变量观测到的情况下根据贝叶斯定理求出剩余缺失变量的后验分布。


图3


最后,我们来看如何用统一的概率图框架把两者结合在一起。继续沿用前面的例子,现在有5个变量但是仅有2个本征维度。与之前不同的是,之前隐变量给定以后,所有的观测向量都是服从正态分布的连续变量,现在我们把其中两个替换为服从二项分布的0-1变量(如图3,其实logis表示logistic变换)。这样,我们便简单的通过改变概率PCA中的分布形式,实现了连续变量和离散变量放入同一个模型。同样的,在给定数据部分缺失的情况下,我们依然可以根据贝叶斯定理推断参数b的后验分布;同样的,在部分观测到x的情况,我们也可以推断缺失数据的分布。



图4


好了,到此为止,我们使用一个带有隐变量的概率图模型把连续问题和离散问题链接在了一起。从这个角度看,概率图方法与其称之为模型,不如称之为一种统一的模型框架。一方面,根据贝叶斯理论,我们可以在部分数据已知部分未知的情况下,求出未知变量在已知变量被观测时的条件概率,实现了缺失填充的目的;另一方面,由于因变量的个数远远小于观测变量的个数,我们同时解决的数据降维的问题。最后,我们可以使用隐变量建立逻辑回归模型;而如果我们添加多层隐变量,再把是否违约当作一个部分观测的自变量,那我们相当于得到了一个贝叶斯深度网络模型(Deep Bayesian Network, DBN,如图4就是一个示例用的包含两个隐含层的DBN,业务目标和自变量在结构上平级)。 


言机器学习必谈深度学习已经被很多从业人员诟病。我在这里也想强调,没有技术最强、唯一最好的模型,只有最贴合业务需要、最适合数据的模型。因为图像识别和语音识别问题中数据上都具有“平稳性”,所以卷积网络特别适用于这一类问题。而同样的拓扑结构,是不能直接应用于金融风控建模的。限于现有的样本数据和计算能力,金融建模需要对数据有充分的理解和对业务的深刻认识,需要用业务知识来指导模型的建立、优化和解释。



朝阳35处有话说在首批获得8家个人征信牌照试点的企业中,平安集团旗下前海征信已经为1500家金融机构提供服务,遥遥领先于竞争对手。在接入更多数据、打通数据孤岛、提供更好服务的数据聚合过程中,前海征信积累的大量的缺失填充经验和在数据缺失情况下的建模优化。概率图模型虽然有着模型效果极佳,模型解释能力强的诸多优点,同时也有着模型训练难度大,所需时间长等缺点。但是,35处君相信,在未来发展趋势中,深度学习框架和贝叶斯推断框架将会更紧密的联系在一起,我们也将持续探索这一领域在金融建模中更为精妙的应用。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多