大数据风控之“习惯数据”在信贷风控中的应用！

kieojk 2017-09-10

展开全文

前言：

人民银行个人征信报告自问世十余年来，一直作为银行等金融机构了解贷款当事人信用状况的信息来源，在当前面临大数据横行，互联网遍布的情况下，人行的个人征信渐渐有些乏力，所提供信息已无法满足金融机构KYC的要求。笔者结合某消费金融科技公司内部审批用《量化风险报告》和了解的情况，认为其中“习惯数据”是值得我们学习的地方，无论是银行业务条线，还是银行内部审计条线，都有些许启示。

1《量化风险报告》结构、内容介绍

《量化风险报告》分为六大部分，分别是：个人基本信息、金融信息、交易信息、行为特征、社交关系和风险策略。

个人基本信息

从基本信息看，除身份证上的信息外，另已获取常用手机电话和淘宝账号，这将作为随后大量信息的获取来源。

金融信息

金融信息看，本例中没有取得相关信息，但从格式上看，可以获取个人收入、财力证明等信息。

交易信息

从交易信息看，获取了网银消费的明细记录，和收货地址联络信息，这些将有助于后台系统对交易真实性行为和生活圈范围的判定。

行为特征

从行为特征看，获取了手机APP的使用情况，手机流量特征的信息，这些信息看似与客户的还款能力无直接关系，但通过后台基于千万级别用户数据挖掘和参数回归，可以发现异常的信息。

社交关系

从社交关系看，全部是与手机有关，对六个月内手机机主的主叫、被叫情况，尤其是对与金融机构的联系频率、时长等信息进行了单独列示。基于手机机主主叫、被叫信息，也可以容易划定出客户的社交圈。

风险策略

风险策略是根据以上内容得出的量化指标和结果，其中对涉及“反欺诈”的信息也单列出来。

2《量化风险报告》与《人行征信报告》的区别

“习惯”与“经历”的区别

从《量化风险报告》的内容结构上看，大量信息集中在“交易”、“行为”和“社交”三个方面，而这三个方面的内容，可以统称为“习惯”，这些“交易习惯”、“行为习惯”和“社交习惯”，构成客户日常生活的绝大部分的内容。相信每个看过这份报告的读者，都可以在脑子勾画出这个客户的各种习惯情况，后台系统将这些“习惯”统一整合和提炼出来，最终实现风险量化，由系统进行最终判断。

《人行征信报告》是我们最熟悉的，笔者认为与《量化风险报告》相比，《人行征信报告》更多是从“经历”方面进行列示，包括工作经历、借款（信用卡）经历等，同时，也没有做到风险量化，最终仍需要使用者凭借“经验”进行判断。从本质上讲，《个人征信报告》是建立在经验主义的惯性思维上，即有不良污点的客户必定信用存在缺失，其再次违约的可能性更大。不能说这样的思维不对，但客户首次信用缺失的风险由谁来承担，似乎只能听天由命了。

因此，《量化风险报告》的“习惯”与《人行征信报告》的“经历”是两者最大的区别。

《量化风险报告》中体现出“反欺诈”特点

《量化风险报告》社交信息部分，有一个“生活圈”分析，其中“生活圈”地点与申请贷款地点不一致时，系统会认定存在“欺诈”嫌疑。在“风险策略”中展示的多个“一对多”的情况，也是为“反欺诈”设计的，而这些是《人行征信报告》远远不能达到和解决的。

3《量化风险报告》的信息来源

据了解，《量化风险报告》的信息来源基本全部来源于客户手机端信息。客户通过在下载该消费金融公司的APP后，在申请类似贷款的白条服务时，需在线授权APP获取个人信息，授权之后，APP就可以获取手机中有用的个人信息了。

4对我们风险控制和内部审计工作的启示

《量化风险报告》的这家消费金融公司和我们银行内审之间，都有属于自己优势，而且都是使用自己最擅长的方式在解决问题。这家公司优势在于运用大数据的算法参数（核心竞争力）和APP线上获取“习惯数据”的优势，银行内审的优势在于拥有海量的“金融数据”（如个人开户资料和交易流水）。双方均利用了自己的优势或者说利用掌握的数据，呈现出来的结果《量化风险报告》是基于“习惯数据”分析判断的结果，但缺少“金融数据”的证明；而银行内审部门则依靠掌握金融数据的优势，开发出大量模型以发现问题，但缺少“习惯数据”进行验证。

启示一：对非金融数据获取、开发和利用

目前，金融交易数据已经脱离银行这一中介进行操作了，银行无论是业务条线，还是内部审计条线，如果还着重于资金流，而不完善、补充和整合非金融数据、信息流数据，恐怕将真的“身在此山中”了。

一是从获取非金融数据的途径上讲，银行是没有障碍的，以招商银行为例，2016年年报显示，“招商银行手机银行”和“掌上生活”两大APP年度活跃用户均超过2500万户，只要打通部门间、条线间的数据壁垒，明确客户线上授权的合规性，数据获取方面不是大问题。

二是各银行在数据算法的技术水平上讲，笔者不甚了了，但数据除了为客户提供更好的服务场景和体验外，也更可以为风险控制在内的内部管理部门提供“对外反欺诈”、“对内反舞弊”和“风险预警”的信息。

启示二：机器学习技术（Machine Learning，ML）

《量化风险报告》只是一个展示结果，其后台实际运用了机器学习技术，机器学习技术在今年5月阿尔法狗战胜围棋世界冠军柯洁的过程中，名噪一时，家喻户晓。理论上，个人、企业任何交易、非交易的行为都可以成为数据，任意两个数据都能画出一条线性关系，当客户偏离这条线很远的情况下，就是异常，这就是线性回归，而这个回归不是由人而是由机器来做，这就是机器学习，机器通过不断寻找参数，不断的自我修正，用以验证所有的被审计对象。

最后需要说明的是，该消费金融公司的目标客群与银行目标客群并不相同，盈利模式和风险容忍程度也不相同，所以两者在关注点上会存在一些差异。本文是向大家展示目前社会上征信或KYC方面以及其后台系统运行的规律和特点，希望能有所启发。

逆水行舟，不进则退。

作者简介：招商银行总行审计部雷宏(CIA 高级审计师）微信号：deepblue_1977