基于机器学习的信用卡之行为评分卡是如何建立的？

昵称16619343 2019-05-24

展开全文

作者：余子娟，CDA L3 数据科学家学员 & CDA L2持证人，专注于金额科技领域，为银行赋能，助力银行信用卡中心全生命周期经营问题。

身处互联网金融时代，信用无处不在。为对客户进行一个优质与否的评判，使用信用评分，对客户实行打分制成为当前风控领域的难点。而基于机器学习的信用评分卡则是其中关键的环节。

信用评分卡分为A卡（Application scorecard）、B卡(Behavior scorecard)和C卡(Collection scorecard)。A卡是申请评分卡，用于贷前审批阶段对借款申请人的量化评估；B卡为行为评分卡，用于贷后管理，通过借款人的还款及交易行为，结合其他维度的数据预测用户是否会逾期；C卡即催收评分卡，用于催收管理，在借款人当前还款状态为逾期的情况下，预测未来该笔贷款变为坏账的概率。

本文就带大家揭秘信用卡风控评分体系之行为评分卡是如何建立的？

客户信息涉及很多因素，因此敏感信息已在之前脱敏。

目标

通过某银行客户的个人基本资料、过去的信用数据及交易资料，依循评分卡建模的步骤，分析归纳出好客户和坏客户的特征，并建立一个客户是否会持续逾期的评分卡预测模型。

步骤

对客户交易数据结合还款情况进行数据处理；

使用机器学习构建B类评分卡，并对模型进行评价；

再由新样本集对评分卡进行测试，并输出验证结果。

数据

我使用了Kaggle的多个数据集，Kaggle数据集链接：

其中m0_200411.txt为训练集，m0_200412.txt为测试集，TXN_DATA.TXT为交易数据集，MccCode.csv为交易码。

代码

我将本文涉及到的代码全部放在github项目集中。

环境和工具

Jupyter notebook 、Pandas、Numpy、woebin、var_filter、perf、scorecard、splitdf(后5个为自有评分卡程序)

数据处理

1.训练集处理

首先对数据集中不同类别变量进行数据探索，查看了数据的分布情况。

训练集中PAY_COND（缴费状态码）是可加工的变量，从24位缴费状态中可以获得：

每三个月的逾期次数，形成一个6位数的变量，例如012121；

获取最大逾期月份，最小为0，最大为9；

获得客户的使用月份数和实动月份数

代码实现如下：

账单金额、缴费金额及归属额度是可加工的变量：

近6个月各月的额度使用率

近6个月各月的还贷比，由于还贷比分布不均，将头尾取[-2,2]作为截断。

2.交易数据集处理

交易数据集共计1886.8万笔，有8个交易属性，可加工较多变量：

月均消费次数

月均消费金额

月均入账次数

月均入账金额

笔均消费金额

交易月份数

……

交易数据集中有MccCode，可以和客户目标属性结合，得到客户高中低风险交易占比。

高风险交易占比

中风险交易占比

低风险交易占比

风险程度来源：先将训练集与交易数据按照ID匹配，求每个客户不同交易类别的交易数量和交易占比；再求得坏客户的交易数占总交易的占比为风险切分点，高于该占比15%的交易类别为高风险类别，低于该占比15%的为低风险类别；最后将各个风险类别对应的风险程度代入交易数据，求得每个客户高中低风险交易占比。

最终形成了基本特征、交易特征、信用卡特征及其衍生变量共计53个指标。

建立评分卡

依据根据CRISM-DM数据挖掘理论，设计模型建立步骤，通过数据检验、数据初筛、分箱及计算WOE、IV筛选，最终建模及评分卡。

数据检验

对已处理好的数据集进行数据检验，包括缺失程度、单变量检验、超多分类检验、异常值、空值填充及正负样本平衡检验。本案例中正负样本比为1:3，由于是金融领域逾期类问题，现实中并不认为这个比例属于不平衡样本，一般样本比例小于1:5，需要进行不平衡类问题处理。常用欠采样、过采样或混合采样来填充样本浓度，预测结果不可直接应用，排序之后可用顺序结果应用于实际。

分箱及计算WOE

分箱其实是当前信用卡风险领域较为困难的操作，如何合理分箱是数据处理之外较难的话题。本案例的分类变量是按照将多个类别合并为一类分箱再计算WOE的，连续数据是有监督分箱，按照CART分类树最优分箱计算各变量的WOE。随机选取WOE值查看如下：

可以看到逾期最大月份的IV值较高，坏样本在不同分类上的区隔较大；归属额度的WOE呈现明显的单调，表明这个变量对结果的贡献较大，变量越重要。

而从这四个变量可知，坏样本在不同分类上的区隔不大，WOE值在水平线左右小幅度浮动，表明这个变量对结果的贡献不大，变量不算重要。

分箱代码如下：

建立评分卡

计算出IV值后，由于该模型变量较多，可以选择筛选掉IV小于0.02的变量，剩余37个变量输入模型。并将数据字典保存成文件，用于后续预测调用使用。

按照7:3生成训练集和测试集，计算出各个变量的WOE后用WOE值替换原始数据，并计算各个变量之间的相关性。

此处分别建立了逻辑回归、决策树、梯度提升树来评判模型效果。

可以看出三种模型效果均较好，就测试集的KS值而言，逻辑回归和梯度提升树较好，由于奥卡姆剃刀原理，当模型效果差别不大时，我们有理由选择复杂度较低，业务可解释性更强的模型即逻辑回归作为最终的输出模型，后续我们也会用验证集进行验证。将得到的模型保存，用于后续模型调用。

建立逻辑回归模型后，对模型稳定性进行了测试，得到PSI远小于0.1，模型稳定性很好。

最终生成的评分卡部分截图如下：

效果评估及预测

然后将原测试集（m0_200412.txt）作为验证集，进行预测的流程图如下：

其中数据加工和数据验证与之前流程一致，重复操作即可。操作好后加载模型和验证集，调用已保存好的数据字典文件，将原数据转化为WOE值，若变量出现新值，用0替换原数据。

我此处仍然通过逻辑回归、决策树和梯度提升树三种模型来验证数据，效果如下图：

可以看到决策树的效果已经坍塌，而梯度提升树的效果不如逻辑回归。需要说明的是，根据业务逻辑，我们更关注的是真正逾期的客户有多少被我们预测出来了即召回率（Recall），本案例中召回率最高的仍是逻辑回归，因此得到：逻辑回归从业务理解难度、稳定性、训练集、测试集、验证集等多方面表现较优，最终选择逻辑回归为最终预测模型。

最终我们得到逻辑回归预测下的各个ID的预测结果。

结语

在金融领域，其实机器学习发展速度不快，当外界已经开始用高阶模型时，我们却还苦苦地应用逻辑回归来解决问题，有时候会担心自己所学是不是已经跟不上时代了。其实无需担忧，金融科技领域，机器学习的发展之路还较远，路漫漫其修远兮，吾将上下而求索。

如果大家有疑问，可以自己下载代码和数据集自行尝试。本身的分享不仅仅是为了分享，也是自我提升的方式之一，如有问题，还请包涵。

相关拓展：

CDA LEVEL 3 数据科学家精英培训是符合「CDA 数据分析师人才行业标准」最高等级准则的一套能够将数据分析师（Data Analyst）培养为数据科学家（Data Scientist），具备专业性、科学性、高端性、先进性的领袖级人才培养方案。该课程主要面向从业多年的、有技术基础的大数据及数据分析专业人士、数据工程师等，为他们提供一个成为数据领袖的跳板。课程内容是在 CDA LEVEL 1 和 LEVEL 2 大纲的基础之上，进一步涉及更先进的技术、更系统的架构、更高效的管理，包含计算机科学技术（高性能），大数据架构设计，机器学习，深度学习，数据治理，项目管理等内容，让数据科学是技术的同时，也能成为艺术。